AI研究

マルチモーダルAIの存在論：ANT・OOOで読み解くCLIP・DALL·E・Whisperの位置づけ

2026.03.28

マルチモーダルAIはなぜ「存在論」の問題なのか

画像を生成し、音声を文字に変換し、テキストと映像を横断するマルチモーダルAIは、もはや単なる「便利なツール」の域を超えている。医療記録の生成、公的文書の文字起こし、報道写真に似た合成画像の流通——こうした現実を前にしたとき、「AIとは何であるか」を問う存在論的な議論は、純粋な哲学の領域を越え、責任・倫理・権力の問題として社会の前に立ち現れる。

本記事では、代表的なマルチモーダルAIシステム（CLIP・DALL·E系・Whisper）を素材に、社会科学・哲学の二つの理論的枠組み——ANT（アクターネットワーク理論）とOOO（オブジェクト指向存在論）——から、AIの存在論的位置づけを整理する。ANTはAIがどのように社会的に成立するかの「過程」を問い、OOOはAIが関係に還元されない「余剰」を持つ対象であることを主張する。この二つの視点を往復することで、説明可能性・責任・権力再編という現代的な問いに対する理論的な補助線を引いていきたい。

ANT（アクターネットワーク理論）とは何か：基本概念の整理

ネットワークとしての社会：翻訳・媒介・アクタント

ANTは、ブルーノ・ラトゥールやミシェル・カロン、ジョン・ローらによって形成されてきた社会理論の方法論である。その核心は、社会を「あらかじめ存在する構造や力」によって説明するのではなく、人間・物・テキスト・装置・制度といった異種混淆的な要素が結びつき、ほどけ、再結合する過程——「連関の生成」——を追跡することにある。

「ネットワーク」という語は、ここでは通信網や人間関係の比喩ではなく、媒介と変形（トランスレーション）の連鎖として理解される。ラトゥールは「アクター（アクタント）」を人間の意図主体に限定せず、非人間も含む「作用の源泉」として拡張した。センサー、アルゴリズム、評価指標、ガバナンス文書——これらすべてが、社会の中で「何かを変形させる力」を持つアクタントとなり得る。

カロンの「翻訳の社会学」は、この枠組みをさらに具体化する。「問題化→利害関与→登録→動員」という翻訳の四契機を通じて、異なる主体が「不可欠な通過点（obligatory passage point）」をめぐって配置される過程を描く。権力や秩序は、最初から存在するのではなく、こうした翻訳の成功の結果として生じる効果として捉えられる。

ローは、この枠組みをさらに「物質的異種混淆性」の観点から深化させ、テキスト・装置・建築などの非人間的要素が社会関係の必須構成要素であることを強調した。この視点は、マルチモーダルAIのようなシステム——学習データ、計算資源、評価指標、デプロイ基盤、ユーザー実践、ガバナンス文書が複合する——を分析する際に、きわめて直接的な有効性を持つ。

ブラックボックス化と脱ブラックボックス化

ANTの重要な洞察の一つが、「ブラックボックス化」の概念である。複雑なネットワークが安定化すると、その内部の翻訳連鎖は見えなくなり、外部からは「単一のAI」や「モデル」として把握される。しかしひとたびシステムが失敗する（事故・偏り・幻覚の露呈）と、ネットワークが再び可視化される。

マルチモーダルAIの分析においてANTが有効なのは、この安定化と攪乱の動態を追跡できる点にある。あるシステムが「高精度なAI」として社会に受け入れられる過程は、技術的性能だけでなく、文書化・規制対応・評価指標・マーケティングといった多様なアクタントの協働によって成立している。

OOO（オブジェクト指向存在論）とは何か：退蔵と対象の自律性

相関主義批判とフラット存在論

OOOは、グラハム・ハーマンを中心に展開された存在論的立場である。その出発点は、哲学が長らく「人間—世界」関係（認識と存在の相関）を特権的に扱ってきたことへの批判にある。ハーマンは、こうした立場（しばしば「相関主義」と呼ばれる）から距離を取り、あらゆる「オブジェクト」を同等の存在論的地平に置くフラット存在論を提唱する。

ここで重要なのが「退蔵（withdrawal）」の概念である。ハーマンは「対象は関係の総和へ還元されない」と繰り返し主張する。対象は関係に参与しつつも、同時にそこから退蔵する——つまり、対象の核は関係によって尽くされることがない。これは、物理主義的分解（部品の集合として対象を尽くす）にも、機能主義的効果（観察可能な振る舞いとして対象を尽くす）にも抵抗する理論的立場となる。

レヴィ・ブライアントは、この枠組みを「フラット存在論」として定式化し、対象を「差異エンジン／生成機構」として捉える。対象の「力能」は局所的な顕在化を超えて退蔵しており、観察可能な出力だけでは対象を把握しきれないという議論は、AIの「説明可能性」問題に対して新たな角度をもたらす。

ティモシー・モートンの「ハイパーオブジェクト」概念——グローバル規模で時空間に分布し、計算・測定・モデル化を通じてしか部分的にしか現れない巨大な存在——は、インターネット規模のAIインフラやデータ循環を考える際の補助線として機能し得る。AIの「影響」を単なる外部環境ではなく、巨大な分布する対象として再定位する視点を与える（ただしこれは類比的な適用である）。

ANTで読む：マルチモーダルAIのアクターネットワーク分析

DALL·E系：テキスト→画像生成のネットワーク記述

テキストから画像を生成するシステムを「単一モデルの能力」として捉えると、プロンプト入力→画像出力という直線的な図式が強調される。しかしANTの視点では、この「直線」は実際には多層的な翻訳連鎖として成立している。

unCLIP（DALL·E 2論文に相当）が示す二段構成——テキストをCLIPテキスト埋め込みへ変換するPrior、そのCLIP画像埋め込みを条件に拡散デコーダで画像を生成するDecoderという流れ——は、ANT的には「翻訳の段階化」として読める。自然言語はまずCLIPテキスト埋め込みへ、次にCLIP画像埋め込みへと変換され、最終的にピクセル空間（画像）として「物質化」する。このときCLIP潜在空間は、言語と画像の両者を接続する**通過点（obligatory passage point）**として機能している。

さらに実運用のシステムでは、「安全性」や「規範」もアクターとして組み込まれる。DALL·E 2やDALL·E 3のシステムカードは、リスク分析・緩和策・外部レッドチーミング・評価プロセスを文書化しており、これらは単なる説明文書ではなく、組織内外の行為（監査・規制対応・批判・問い合わせ）を媒介する**「記述装置（inscription）」**としてネットワークに参加している。

安全フィルタが固定的でなく、逆工学や脱獄（jailbreak）研究によって繰り返し再構成されることは、ネットワークが「安定化（ブラックボックス化）」と「攪乱（脱ブラックボックス化）」を反復するANT的典型例でもある。

テキスト→画像生成のアクター群（例示）： ユーザー/プロンプト実践 → UI/入力制約 → プロンプトフィルタ/ポリシー → テキスト埋め込み → Prior（画像埋め込み生成）→ 拡散デコーダ → 出力安全フィルタ → 生成画像 → 共有プラットフォーム → 受け手/評価/二次利用、そして学習データ・計算資源・システムカードがこの連鎖を横断的に支える。

Whisper：音声→文字起こしネットワークの翻訳連鎖

Whisperの事例は、ANT的分析の別の側面を照らし出す。音声を文字に変換するこのシステムは、68万時間規模の多言語・マルチタスク教師データを活用し、言語識別・VAD（音声区間検出）・翻訳・音声認識を単一トークン列予測として統合している。

ANTの観点では、Whisperが「音声→文字」を実現するのは、マイク・録音環境・前処理・VAD・多言語設定・運用規程・確認作業といったアクター群の協働によるものである。生成された文字記録が「議事録」「医療記録」「法的証拠」として機能するとき、それは単なる技術的出力ではなく、「記録の真正性」という社会的効果を共同生産した結果として成立している。

Whisperが音声の内容を「捏造（hallucinate）」し得るという問題は、医療・公共記録・法的文脈で深刻な論点となり得る。ANT的には、誤りや幻覚の分布を決めるのはモデル単体ではなく、録音環境・デコーダの言語モデルとしての性格・利用者のポストエディット・組織的な監査体制というアクター群であることが明確になる。

CLIP：埋め込み空間を「制度化する」ネットワーク

CLIPは画像—テキスト対応を対照学習で学習し、自然言語プロンプトによるゼロショット分類・検索を可能にする。産出されるのはモダリティ間で比較可能な埋め込み表現（特徴空間）であり、この空間が「意味の距離」を定める基盤として、下流アプリケーション（画像検索・コンテンツモデレーション等）に広く用いられる。

ANT的には、CLIPが実装する「意味の距離」は、データ収集・ラベリング・評価指標・下流アプリという連鎖を通じて社会的に制度化される。バイアス軽減の困難さや、概念連想バイアス（CAB）のような失敗様式が報告されていることは、この制度化が「中立」ではなく、特定の知識・権力の布置を含むことを示している。

OOOで読む：モデルと生成物の「退蔵する対象性」

モデルというオブジェクト：尽くせない内部

OOOの視点からマルチモーダルモデル（CLIP潜在空間・Whisperのデコーダ・unCLIPのPrior/Decoder連鎖）を捉えると、これらは「入力—出力の関係（観測可能な振る舞い）だけでは尽くせない内部構造」を持つオブジェクトとして現れる。

ハーマンが強調するように、対象は関係に参与しつつも関係から退蔵する。これは単に「内部がわからない」というブラックボックスの問題ではなく、原理的に関係へ還元されない対象性として理解される必要がある。完全な説明可能性（full interpretability）が理論的に達成困難であるとすれば、それはモデルの「複雑さ」の問題であると同時に、対象の退蔵という存在論的条件の問題でもある。

unCLIPがCLIP潜在空間を「反転（invert）」することで、何がCLIPに「捉えられ」何が「捨象される」かをある程度観察可能にする操作は、OOO的には「対象は直接には触れられないが、媒介（別のデコーダ）を通じて間接に接触できる」という構図に対応している。対象の退蔵は、別の媒介を通じることで部分的に露呈させられる——しかしあくまで部分的にとどまる。

Whisperの場合も、出力としての文字起こしは外部から評価可能だが、モデルが「何を手がかりに」文を生成するか——特に長尺音声・雑音下での推論の崩れ方——は、単純な性能指標では把握しきれない。モデルは多数の内部要素（層・注意機構・語彙・正規化）を含む「群衆」でありながら、外部へは「単一の声＝文字起こし装置」として現れる。この二重性がOOOの対象概念と共鳴する。

生成物というオブジェクト：流通後の自律的因果力

OOOがANTと大きく異なるのは、「生成物（アウトプット）」をネットワーク上の媒介物にとどめず、独自の実在・自律性を持つオブジェクトとして強調する点にある。

生成画像は、生成時点でのプロンプトやモデルの意図から切り離されて保存・拡散・再編集・評価され、別の因果連鎖を起動する。ある画像が「炎上の証拠」として拡散されるとき、その画像はもはや「誰かのプロンプトの出力」ではなく、固有の実在力を持つオブジェクトとして社会の中で作用している。

音声文字起こしは、より直接的な形でこの問題を示す。いったん「議事録」「診療記録」「証拠書類」として固定された文字起こしは、元の音声（出来事）を参照せずに判断を拘束し得る。Whisperが文を捏造し得るという問題は、誤った対象が制度を動かすリスクとして現れる。生成物が対象として自律し、制度内で「強い実在性」を獲得するがゆえに、誤りは単なる精度問題を超えた権力論的問題となる。

ANTとOOOの比較：緊張点と互補性

関係主義vs退蔵：根本的な緊張点

ANTとOOOの最大の緊張は、「存在者を関係の効果として把握する傾向（ANT）」と「存在者は関係に尽きない退蔵核を持つという主張（OOO）」のあいだにある。ハーマンはラトゥール的な関係主義が対象の自律性を過度に削ると批判し、「関係は対象を尽くさない」と主張する。

一方ANTは、そもそも「対象の本質」を先取りせず、ブラックボックス化・脱ブラックボックス化、翻訳の成功と失敗、規範文書やインフラの働きを記述できる強みを持つ。理論的な主張として対象の退蔵を前面に出す前に、実際にネットワークがどう作動しているかを追う能力は、AIシステムの具体的な分析に直接的に有効である。

二つの枠組みの互補性

二つの枠組みは、異なる問いに答える補完的な道具として理解できる。

ANTが得意とする問い：

マルチモーダルAIはどのような異種要素の翻訳・媒介の連鎖として成立しているか
責任・権力・規範はどのようにネットワーク効果として生じているか
どのアクターが「通過点」となって配置を決定しているか

OOOが得意とする問い：

モデルや生成物は関係へ還元されない余剰（退蔵）を持つか
説明可能性・統制可能性の限界条件はどこにあるか
生成物はいかなる意味で「自律的」な対象として社会に作用するか

この互補性は、マルチモーダルAIを「ネットワークとしての対象」かつ「対象としてのネットワーク」——相互に張力を伴う二重の像——として扱うことを可能にする。

倫理・政治への含意：責任・説明可能性・権力再編

分散した責任とガバナンスの設計

ANTの「ネットワーク効果」という視点は、マルチモーダルAIをめぐる責任を単一の主体（モデル開発者）へ還元しない。日本の「人間中心のAI社会原則」が強調するプライバシー・公平性・透明性・説明責任も、NIST AI RMF 1.0が提示するリスク管理の枠組みも、AIを設計・開発・展開・使用の文脈差を含む「システム」として捉え、分散した責任の設計を求めている。

OpenAIの外部レッドチーミングに関する整理は、複雑なAIシステムのリスク評価が、モデル単体ではなく「人間評価者・定量評価・緩和策・反復プロセス全体」として構築されることを示す。これはANT的には「リスク評価というアクターの編成」、OOO的には「退蔵する対象への間接的接触（媒介）の組織化」として読める。

説明可能性の再定義：退蔵という限界条件

OOOの退蔵概念は、「説明可能性（explainability）」の議論に対して根本的な問いを投げかける。モデルが関係に入りつつも関係から退蔵する以上、完全な透明性は原理的に達成困難という可能性がある。そのとき倫理的な実践は、「内部の全面開示」という幻想を追い求めるのではなく、システムカード・監査・レッドチーミングといった**「間接的接触」の制度的組織化**によって、被害最小化と説明責任を実務的に担保する方向へ向かうことになる。

可視性・発話権・証拠能力の再編

マルチモーダルAIが「知覚・記録・表象」を代替・拡張することで、可視性・発話権・証拠能力・創作価値の配分が変容する。Whisperによる文字起こしの誤りが公共記録や医療判断に影響し得るという問題は、生成物オブジェクトが制度的権力を帯び得ること——そして誤った対象が権力を行使し得ること——を示している。これは技術的問題であると同時に、深く政治的な問題でもある。

まとめ：ANT・OOOが開く視野

本記事では、マルチモーダルAI（CLIP・DALL·E系・Whisper）を、ANTでは「翻訳と媒介の連鎖から成るアクターネットワーク」として、OOOでは「関係に還元されず部分的に退蔵するオブジェクト」として位置づけることを試みた。

ANTはAIシステムの「社会的成立過程」を追跡する記述的・方法論的強みを持ち、OOOはモデルと生成物が持つ「関係へ還元されない余剰」という存在論的条件を理論化する。二つの枠組みは対立というよりも、異なる問いに対応する補完的な道具として機能し得る。

責任・説明可能性・権力再編という現代的問題群を考えるとき、この二重の視点は——完全な答えを与えるわけではないが——問いの射程を広げる有効な理論的補助線となる。

動物福祉理論はAI倫理に応用できるか？苦痛回避原則を機械へ拡張する可能性と課題

LLMの責任帰属問題とは？ネットワーク全体で倫理を制度化するガバナンスの全体像