なぜ今、哲学の「身体論」がAI設計と交わるのか
人工知能の開発現場では長らく、知能を「記号操作」や「統計的パターン認識」として捉える立場が主流でした。しかし近年、ロボットが物理世界でリアルタイムに動作し、人と協調することへの要求が高まる中で、その前提が問い直されています。
フランスの哲学者モーリス・メルロ=ポンティが1945年に著した『知覚の現象学(Phénoménologie de la perception)』は、「知覚とは外界を頭の中にコピーする処理ではなく、身体が世界に投錨しながら意味を取り出す生きられた出来事である」と主張します。この洞察は、embodied AI・enactive approaches・sensorimotor learning・predictive processingといった現代の研究潮流と強く共鳴し、「どこに閉ループを置き、何を”成功”と測るか」を再設計する手がかりとなります。
本記事では、メルロ=ポンティの主要概念を整理したうえで、次世代AI設計への接続原則と具体的な実装方向を論じます。

メルロ=ポンティ身体論の主要概念を整理する
身体=存在(身体‐主体)とは何か
メルロ=ポンティは、身体を単なる物体として扱う伝統的な二元論を退け、「身体は世界を理解するための媒体そのものである」と論じます。代表的な定式化として、”The body is our general medium for having a world.”(『Phenomenology of Perception』Part I, ch.3, p.168)という一節が知られています。
身体は空間の「中」にある対象ではなく、空間の経験(世界)と癒着しながら成立します。同書では”our body is not primarily in space: it is of it.”(Part I, ch.4冒頭)とも述べられており、これは「エージェントが環境から切り離されたモデルを持つ」という従来の設計思想への根本的な問い直しと読むことができます。
知覚の先行性――世界は「考えられる」前に「生きられる」
序文の”The world is not what I think, but what I live through.”(Preface, p.xviii)という言葉が示すように、知覚は推論の材料ではなく、真理経験の基底です。世界はまず「すでにそこにある」ものとして身体に与えられ、概念的・言語的な処理はその上に成立します。
AI設計との文脈では、この立場は「知覚モジュールが出力した特徴量を後段の推論器に渡す」というパイプライン型設計に疑問を投げかけます。知覚は行為と同時進行しており、環境の文脈に依存して「意味ある差異」を切り出す能動的なプロセスだという見方です。
作動的意図性と前言語的統合
メルロ=ポンティが「作動的意図性(operative intentionality)」と呼ぶのは、命題的な意図(「〜しようと決意する」)以前に、欲求・評価・風景などに現れる前反省的な統一のはたらきです。”operative intentionality … produces the natural and antepredicative unity of the world …”(Preface, pp.xix–xx付近)という記述がその典型です。
「前言語的(antepredicative)」とは、言語化・主題化以前に意味が現れている層を指します。みすず書房版『知覚の現象学 2』(本文295–296頁付近)では「言語は…意識の沈黙を前提としており…」と表現されています。これはAI設計でいえば、「言語入力なしで身体的技能を獲得できる基盤層をどう構築するか」という問いに直結します。
相互身体性(間身体性)――他者理解の身体的根拠
他者理解を「内部推論による類推」ではなく「身体の相互結合(行為‐知覚の相互誘発)」として捉える立場を、メルロ=ポンティは相互身体性(intercorporeality)として展開します(Merleau-Ponty, 1951/1964の論考が参照される)。後期の著作『見えるものと見えないもの(The Visible and the Invisible)』に収められた「交叉(The Chiasm)」では、見る/見られる・触れる/触れられるの可逆性が”the thickness of flesh … is their means of communication.”(p.135相当)と述べられています。
次世代AI研究における「身体性」の現状
embodied AI・enactive AI・predictive processing
現在の次世代AI研究は、大きく三つの理論的潮流を持ちます。
Embodied AI は、仮想または実環境に身体を持つエージェントが知覚‐行為の閉ループで課題を解くパラダイムです。Savvaらが開発したHabitatプラットフォーム(Habitat-Sim/Habitat-API)は、大規模3Dシミュレーションによる能動探索実験を可能にし、センサー構成(特に深度情報)が汎化性能に決定的な影響を与えることを示しました。
Enactive AI は、Froese & Ziemkeらによる批判的整理(”Enactive artificial intelligence”)が示すように、通常のembodied AIが「意図的主体性の説明」に不足していると診断し、生命的自己組織(autopoiesis)の概念を導入しようとします。ただし、その工学的実装・評価の方法論はまだ確立途上です。
Predictive processing / Free Energy Principle は、KarlFristonが提唱する枠組みで、知覚・行為・学習を「予測誤差(自由エネルギー)の最小化」として統一的に定式化します。ロボティクスへの適用サーベイ(Lanillosら)によると、不確実性下の推定・制御・計画を単一の理論枠で扱える点が魅力とされる一方、生成モデル設計や近似推論の計算コストといった実装上の課題が残ります。
大規模データと生成モデルによる行為学習
近年の実装面での大きな動きとして、多身体・多タスクデータの統合があります。Open X-Embodiment(O’Neillら)は、60以上のデータセットから100万件超の軌跡、22種類のロボット身体を統合したもので、クロスエンボディメント学習(異なる身体形状をまたいだ汎化)の土台を提供しています。
行為生成の観点では、ChiらによるDiffusion Policyが、行為の分布を拡散モデルで表現することで多峰性(複数の合理的行為候補が存在する状況)を保持しながら安定した模倣学習を実現し、複数ベンチマークで従来手法を上回ると報告されています。
言語と物理行為の接続では、HuangらのVoxPoserが、大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いて制約・アフォーダンスを抽出し、3次元価値地図を生成してプランニングに渡すアーキテクチャを提案しています。未知の物体・未知の指示へのゼロショット一般化をデモンストレーションした点で注目されますが、言語の誤解が危険動作につながるリスクや責任帰属の問題は未解決です。
身体論からAI設計へ――6つの接続原則と実装方向
メルロ=ポンティの身体論を「アルゴリズム仕様書」として直接読むことはできません。しかし、「センサー構成・学習目標・評価指標の設計制約」として翻訳することは可能です。以下に6つの設計原則と、それぞれの実装方向を整理します。
原則1:知覚は「受動入力」ではなく能動的探索である
知覚の先行性とsensorimotor contingency理論を接続すると、エージェントの知覚システムは「情報利得や不確実性低減を動機とした探索」として設計されるべきということになります。
実装方向としては、不確実性低減を報酬に含めるPOMDP強化学習(RGB-D+IMU)のシミュレータ実験、視覚と触覚を組み合わせた能動探索計画(把持の誤り率低減)、そして「感覚‐運動随伴の予測器」として状態表現を構成し予測誤差で更新するsensorimotor contingency学習の三方向が考えられます。評価には成功率に加えて不確実性の較正精度や遮蔽・照明変化への頑健性を組み込む必要があります。
原則2:身体図式・習慣は「内部モデル」ではなく世界への投錨である
身体図式とは、関節角・力覚・視覚から統合された自己状態の表現であり、変化(故障・負荷)に対してオンラインで同定できる必要があります。Open X-Embodimentのような多身体データを活用して「身体差を跨ぐ表現」を事前学習し、未見ロボットへ少数データで適応させるアプローチは、この原則の工学的具現化のひとつです。
原則3:意図性は記号的目標ではなく行為可能性(I can)として設計する
“I can”という表現でメルロ=ポンティが示すのは、欲求や行為の前に「この身体でこれができる」という可能性の地平が開かれているという事実です。アフォーダンスを明示的に扱うVoxPoserのアーキテクチャや、行為分布の多峰性を保持するDiffusion Policyは、この意味で「行為可能性を設計の中心に置く」実装と解釈できます。
原則4:世界‐身体の相互構成を前提に環境内で評価する(world-in-the-loop)
モデルの汎化性能は、孤立したベンチマークではなく環境多様性の中で評価されるべきです。Habitatのような大規模3Dシミュレータでのクロスデータセット評価を「必須ゲート」として設計プロセスに組み込む、あるいは模倣学習データを「タスク×環境」で系統的に拡張する(BC-Zのアプローチ)ことが、この原則の実践となります。
原則5:相互身体性は「推論」より「同調」として実装し、HRI評価を一次指標に置く
人‐ロボット協調(HRI)では、力覚・視線・リズムへの適応(同調)を安全制約のもとで実現することが求められます。評価指標としては、共同作業時間・主観的負荷(NASA-TLXなど)・ヒヤリハット件数を、タスク成功率と同等の重みで扱うことが身体論的には要請されます。
原則6:前言語的層を先に育て、言語は後から接続する
VLAや汎用ロボットモデルでは、言語計画と物理実行が直接連結する構造が一般的ですが、身体論の観点からは「低レベルの感覚運動技能が安定してから言語的指示を上位層に限定する」階層化が望ましいとされます。これはメルロ=ポンティの「言語は意識の沈黙を前提とする」という立場の工学的翻訳です。具体的には、視触覚・運動の自己教師あり学習で表現を先に獲得し、言語条件付けを後段に接続する設計が挙げられます。
倫理と実装上の課題――安全・プライバシー・評価の難しさ
身体を持つAIは、情報システムと比べて物理的危害・空間的プライバシー侵害・行為責任の帰属という三つの倫理的問題が前面化します。協働ロボットに関する国際安全標準(ISO/TS 15066)は、設計段階からのリスクアセスメントを要件として定めています。
VLAや汎用ロボットモデルでは、言語の誤解→危険動作という新たな失敗連鎖が生まれます。緩和策として、プロセス面では設計ゲートとしてのリスクアセスメントとログの監査可能性、技術面では速度・力制限や不確実性推定の組み込み、評価面では成功率に加えてヒヤリハット・接触力分布・説明理解度を含む多目的評価への移行が考えられます。
「意味的成功」や「前言語的熟達」をどう定量評価するかは現時点で未解決です。ベンチマーク成功率だけに依存した最適化は、身体論が警告する「社会的破綻(不信・恐怖・逸脱使用)」を招く可能性があります。
まとめ――「どこに閉ループを置くか」を再設計する哲学的根拠
メルロ=ポンティの身体論が次世代AI設計に提供するのは、特定のアルゴリズムではなく「設計の問いの立て方」です。知覚の先行性・作動的意図性・相互身体性・前言語的層という四つの概念軸は、「センサー構成をどう選ぶか」「何を報酬にするか」「HRIをどう評価するか」「言語と身体技能をどの順序で学習させるか」という工学的判断に直結します。
モデルをいかに大きくするかという問いと同時に、世界内のどこに閉ループを置き、何をもって”成功”と測るかを再設計することが、embodied AIの次の課題です。哲学と工学の対話は、その問いを明確化するうえで有効な視点を提供しています。
コメント