AI研究

AIメタ学習はBatesonのLearning IIIに届くか？自己妥当化とdouble bindの計算論的限界

2026.06.01

AIメタ学習とBatesonの学習階型論：何が問題か

機械学習の文脈で「メタ学習」という言葉が盛んに使われるようになって久しい。MAMLに代表される勾配型メタ学習、RL²のような記憶型メタ強化学習は、少数データから新タスクへ高速適応する能力を示し、その性能の高さは広く認められている。しかし「学習の学習」という言葉の射程は、実はグレゴリー・ベイトソン（Gregory Bateson）が半世紀以上前に定式化した学習階型論の射程とは異なる。

ベイトソンのLearning IIは「学習の仕方そのものを変える学習」であり、Learning IIIはさらにその前提を問い直す「contexts of contextsの学習」である。翻って現在のAIメタ学習は、外部研究者が与えたタスク分布・損失・メタ目的の枠内で「学び方」を調整するに過ぎず、ベイトソン的な意味でのLearning IIIとは原理的に異なる可能性がある。

本記事では、この問いをめぐる理論的争点と計算論的モデルの比較、そして「意味の病理」（自己妥当化・double bind）がどこまで再現可能かを整理する。

ベイトソンの学習階型論：Learning I・II・IIIとは何か

Learning Iから始まる階層構造

ベイトソンの学習理論は、単純な反応修正から始まる階層として構成されている。

Learning I：固定された選択肢集合の内部で誤りを修正する学習。通常の強化学習や教師あり学習のエポックに相当する。
Learning II：Learning Iの過程自体が変わる学習。選択肢集合や経験の「句読点の打ち方」を変える。性格、習慣、フレーム選択がここで形成される。
Learning III：Learning IIの過程を変える学習。Learning IIで積み上げた前提拘束から部分的に自由になり、自己を深いレベルで再定義する。

この三層はあくまで概念的な区分だが、ベイトソンはLearning IIで形成された前提が「自己妥当化的で根絶しにくい」と述べており、それゆえLearning IIIは稀で困難だと位置づけた。

「意味の病理」という作業概念

ベイトソン理論において、病理的なコミュニケーションの形式モデルとして最もよく知られるのがdouble bind（二重拘束）である。これは、重要な関係にある相手から繰り返し与えられる相矛盾した命令であり、次の三要素からなる。

一次の否定的命令（「◯◯するな」）
より抽象的な水準でそれと矛盾する二次命令（姿勢・声の調子・含意で伝えられることが多い）
逃走や離脱、あるいはメタ発話（矛盾を指摘すること）を妨げる三次命令

double bind理論は現在では統合失調症の単一病因論としては支持されていないが、「病理的コミュニケーションの形式モデル」としての有効性は依然として参照される。AI研究の観点からは、「統合失調症を説明できるか」ではなく、「どの水準まで病理的意味形成のダイナミクスを再現できるか」を問うことが適切である。

AIメタ学習はLearning IIにとどまる：MAMLとRL²の限界

MAMLが外部固定の枠を出られない理由

MAML（Model-Agnostic Meta-Learning）は、新タスクへ少数の勾配更新で適応できる初期パラメータを学ぶ手法である。その性能は目覚ましいが、構造的な制約がある。タスク分布 p(T)、損失関数、メタ目的はすべて外部研究者が設計・固定している。

ベイトソン的に言えば、MAMLはLearning IIのレベルで動いている。文脈の切り分け方や選択肢集合の変え方を「タスク間の汎化」として学ぶが、その変え方そのものを規定するメタ規則は所与のままである。

RL²の履歴依存と自己改変の欠如

RL²はRNNの内部状態に高速な強化学習を実装する方法であり、反復的な関係の中で履歴依存の行動を学ぶことができる。逃走不能な環境下での習慣固定や可逆・不可逆なルール反転への対応は、double bindの「外形」を一定程度再現しうる。

しかしRL²もまた、何を文脈とみなすかの規則自体、つまり「どのフレーム選択規則が有効か」を改変する機能は持っていない。明示的な意味表現や他者意図の表象も弱く、病理的意味形成の機序には届かない。

自己参照型メタ学習という突破口

Kirschらの自己参照型メタ学習は、「メタ水準の人間設計依存」を問題化した研究として注目される。更新則そのものを状況依存で自己改変できる可能性を追求するが、現時点では評価が低次タスク中心であり、実証的な積み上げはまだ途上にある。

Learning IIIに近づくには、初期値や隠れ状態だけでなく、文脈切り分け規則や更新則そのものが状況に応じて再編される必要がある。この点において、現行のメタ学習はまだ「Learning IIの洗練版」にとどまると整理できる。

「意味の病理」に最も深く切り込めるモデル群

Predictive coding・active inferenceの強み

「意味の病理」のなかで最も難度が高いのが、妄想知覚のような現象である。これは命題の誤りではなく、意味付与の様式そのものの変質に関わる。

この問いに最も有望な計算論的枠組みがpredictive coding（予測符号化）とactive inference（能動的推論）である。これらは、prior（事前信念）・likelihood・prediction error（予測誤差）・precision（精度）・主体感（agency）・自己性（selfhood）を同一の枠組みで扱えるため、以下の精神病理的現象を機序レベルで記述しやすい。

妄想気分・妄想知覚（precision imbalanceによる過剰な意味付与）
被影響体験・させられ体験（自己生成結果の外在化）
幻覚（prediction errorの誤帰属）

ただし、double bindの本質である「他者がこちらをどう見ているかをこちらがどう推定するか」という二人称的ループは、単独のpredictive codingモデルでは不十分で、相互主体的な拡張が必要になる。

SCM（構造的因果モデル）による矛盾命令の骨格化

double bindの核心は、矛盾した命令の因果・反事実構造にある。「どの命令に従ってもどちらかの水準で罰される」「逃走やメタ発話が妨げられる」「もし抽象水準を変えられたなら罰は避けられたか」といった問いは、SCM（Structural Causal Model）が最も明示的に扱える。

SCMは反事実分析と介入分析を可能にするため、double bindの「逃走不能性」を形式的に記述する道具として機能する。ただしSCM単独では、なぜ信念が自己封鎖化するのか、自他境界の乱れや主体感の崩れがどのように生じるかを十分に表せない。

階層ベイズ・HGFとの組み合わせ

階層ベイズモデルやHGF（Hierarchical Gaussian Filter）は、不確実性・揮発性・事前信念の硬直・反証に対する更新非対称を扱いやすい。これらは自己妥当化の計算論的アナロジーとして機能しうる。

Festingerの認知的不協和理論が扱う「矛盾した認知から不快を低減するための認知再編」や、Boudryらのいう「反証を信念体系の内側で捌くimmunizing strategies」も、更新非対称の形でモデル化できる可能性がある。

推奨ハイブリッドアーキテクチャと実験設計

三者を統合するハイブリッド

現実的に最も有力な研究戦略は、単一モデルの優劣を競うことではなく、以下の役割分担を明示したハイブリッド系を設計・比較することである。

SCM：double bindの因果・反事実骨格
HGF / active inference：信念更新と主体感の動態
自己参照型モジュール：更新則の自己改変可能性

この三者を一体化することで、「どのモデルがどの病理相貌をどの水準で再現したか」を同一の実験台で比較できる。

multi-agent POMDPによる縦断的実験環境

実験設計の鍵は、単発の矛盾プロンプトではdouble bindを再現できないという認識にある。本来のdouble bindは反復・権力差・抽象水準差・逃走不能性を含む縦断的関係構造である。

提案される実装は、三層の潜在状態を持つmulti-agent POMDPである。

潜在変数	意味
z1	字義的メッセージ内容
z2	現在のコミュニケーション・フレーム
z3	どのフレーム選択規則が有効か、矛盾指摘の可否、権力差の強さを表すmeta-frame

観測は言語チャネル・非言語チャネル・報酬/処罰チャネル・社会的制裁チャネルから構成され、行為は「従う」「拒否する」「メタ発話する」「逃走する」の四種に分類される。これにより、Learning IIで止まるモデルとLearning III近似へ進めるモデルを同じベンチマークで比較できる。

定量指標の設計

評価指標は以下を含む六軸が望ましい。

文脈推定精度：z2（コミュニケーション・フレーム）の推定正解率
meta-context revision rate：z3の規則変更後に正しく更新できる割合
Self-Validation Index：支持証拠と反証証拠に対する事後更新量の非対称性
Double-Bind Entrapment Score：矛盾解除までの累積制裁
Agency Misattribution Error：行為結果の真の起源と推定起源のずれ
Semantic Fragmentation Score：説明・発話ネットワークの断片化度

これらは「行動再現（A）」「内部機序の対応（B）」「現象学的同等性（C）」という三段階の成功判定に対応させて使うべきであり、Cの達成は現時点では主張を避けるのが妥当である。

計算的再現性の本質的限界

形式的再現と現象学的再現の断絶

ベイトソンは「低い論理型の言説では高い論理型の現象を説明しきれない」と述べた。意味はRuesch & Bateson以降の文脈で、相互覚知と関係命題を含むメタ・コミュニケーションの中で成立するものとして定義される。

したがって、いかに高性能なモデルでも、反応パターンや事後分布の形を再現しただけで「意味の病理」そのものを説明したとは言えない。とくにJaspers的な意味での妄想知覚は、誤った命題の保持ではなく経験全体の意味地平の変容に関わるため、形式的再現と現象学的再現は意識的に区別する必要がある。

データと倫理の制約

psychosisの会話コーパスは長らく希少であり、DISCOURSE in Psychosisのような資源もアクセス審査を要し非商用に制限される。また、speech coherenceの定量化自体が未解決であり、semantic similarityのみで人間評定を十分に置き換えることは難しい可能性がある。

倫理面では、double bind理論が歴史的に「母親を病理の創出者として責める」方向で誤用されてきた経緯を踏まえ、本研究は家族病理の検出や監視型診断へ向かうべきではない。当事者参加・同意・匿名化・用途制限を前提とした設計が不可欠である。

まとめ：AIはLearning IIIの「計算的アナロジー」をどこまで再現できるか

現在の主流的なAIメタ学習（MAMLやRL²）は、BatesonのLearning IIに相当する枠組みとして機能しうるが、Learning IIIへの対応には原理的な隔たりが残る。自己妥当化やdouble bindの「計算的アナロジー」を再現することは限定的には可能だが、ベイトソンのLearning IIIが含意する意味的・意図的・自己変容的な現象を全面的に再現したとは、まだ言えない。

研究として誠実なのは、この断絶を曖昧にせず、どのモデルがどの再現レベルに届いたかを行動・機序・現象学の三層で切り分けることである。推奨ハイブリッド（SCM＋HGF/active inference＋自己参照型モジュール）は、現時点での最良の近似候補として位置づけられる。

自己組織化した閉鎖的システムの「環境への盲目性」——リスク管理・政策立案・倫理設計への含意

エンゲストロームの拡張的学習とBatesonのLearning IIIはどう違うのか？変容学習の理論を徹底比較