AI研究

大規模言語モデルは因果推論ができるのか？GPT-4と人間の思考プロセスを徹底比較

2025.05.23

はじめに

ChatGPTやGPT-4といった大規模言語モデル（LLM）の登場により、AIが人間のような思考や推論を行えるのではないかという期待が高まっています。特に注目されているのが「因果推論」の能力です。これは「なぜその結果が起こったのか」「もしあの時別の選択をしていたら」といった因果関係を理解し推論する能力のことです。

本記事では、最新の研究成果を基に、GPT-4などの大規模言語モデルがどの程度因果推論を行えるのか、そして人間の因果推論メカニズムとどのような違いがあるのかを詳しく解説します。AIの可能性と限界を理解することで、より効果的なAI活用の道筋が見えてくるでしょう。

大規模言語モデルの因果推論能力の現状

高精度な因果関係判定の実現

最新のGPT-4は、一部の因果推論タスクにおいて驚異的な性能を示しています。Kicimanらの研究によると、GPT-4はペア変数間の因果関係判定において97%という高い正解率を達成し、従来の因果推論アルゴリズムの83%程度を大きく上回りました。

さらに印象的なのは反実仮想推論（「もしXが起きなかったらYはどうなっていたか」）における約92%の正答率です。これは従来の最先端モデルを20ポイント以上も上回る結果であり、LLMの因果推論能力の高さを示す証拠として注目されています。

統計的相関から因果推論への限界

しかし、より厳密な評価を行うと異なる側面が見えてきます。Jinらの研究では、17種類のLLMを対象に「Corr2Cause」と呼ばれるデータセットを用いて評価を実施しました。このタスクでは、複数の変数間の相関関係の記述のみを与え、そこから因果構造を推定させます。

結果は衝撃的でした。現在のLLMは因果推論スキルに重大な欠陥があり、与えられた因果推論タスクでほぼランダムに近い正答率しか達成できませんでした。さらに、変数名や表現を少し変えるだけで性能が大幅に低下し、分布外一般化に失敗することも明らかになりました。

因果推論における具体的な課題

ChatGPTの因果推論能力を総合評価した研究からは、以下の特徴的な課題が浮き彫りになっています：

因果の「説明」は得意だが正確性に問題 モデルは因果的な説明文を流暢に生成できますが、それが正しい因果関係かどうかは保証されません。もっともらしい説明を作り出す能力は高いものの、事実に基づいた正確性には疑問が残ります。

因果の幻覚現象 訓練データ中の報告バイアスの影響で、事実にない誤った因果関係を推論してしまう傾向があります。例えば、ある出来事AとBがよく一緒に述べられる文脈を学習していると、因果関係が明示されなくとも「AによってBが引き起こされた」と勝手に推測してしまう場合があります。

プロンプト依存性 質問の表現方法によって回答が大きく左右されるという不安定性も確認されています。明示的に「〜の原因は何か？」と聞けば比較的正確に答えますが、暗に因果を問う形式では誤推論しやすい傾向があります。

行動予測における因果理解の実態

日常的な行動予測での強み

人間の行動予測に関わるタスクにおいて、LLMは興味深い特徴を示します。典型的な日常シナリオでは、かなりもっともらしい行動予測が可能です。例えば「昼食を食べ損ねて空腹な人物」の次の行動として「食べ物を探す」「何か料理する」といった妥当な答えを返します。

これは訓練データ中に類似の記述が無数にあり、統計的関連として「空腹なら食べる」という因果知識を獲得しているためです。膨大なテキストから学習した常識的な行動パターンにより、表面的には人間らしい推論を行えています。

心理的要因が絡む場面での限界

しかし、隠れた因果関係や心理的要因が絡む場面では、モデルの限界が現れます。人間の意図や信念の推測（心の理論）が必要な状況では、単純なパターンマッチ以上の推論が要求されます。

例えば「太郎は花瓶を割ってしまい、それを見た次郎は激怒した。なぜ次郎は怒ったのか？」という問いを考えてみましょう。人間なら「他者の所有物を壊した」ことが怒りの原因だと推測できます。ChatGPTも類似の質問に答えることは可能ですが、その背後では「花瓶を壊す→持ち主が怒る」というパターンを再生しているに過ぎない可能性があります。

False-Belief課題における不安定性

より高度な行動予測として、他者の誤信念を見抜いて行動を予測するFalse-Belief課題があります。これは「ある人物が世界について誤った信念を持っているとき、その人物の行動をどう予測するか」という課題で、人間でも4〜5歳頃にできるようになる高度な推論です。

GPT-4がこの課題を解けるかについては議論が分かれています。適切なプロンプトを与えることで正答する場合もありますが、問題の微妙な変化に脆弱で安定的には解けないことが報告されています。これは、汎用的な因果心的推論能力ではなく、特定の問題パターンへの過剰適合である可能性を示唆しています。

人間の因果推論メカニズムの特徴

経験に基づく世界モデルの構築

人間の因果推論は、認知科学の研究によって明らかにされた独特なメカニズムを持っています。最も重要な特徴の一つが、経験に基づく世界モデルの構築です。

人間は日々の知覚や経験を通じて、物理的・社会的世界の因果構造に関する内的なモデルを形成します。例えば赤ちゃんは物を落とす遊びを繰り返すうちに「物体は手を離すと落下する」という重力の存在を直感的に学習します。この学習プロセスは観察と試行錯誤を通じて獲得され、実世界のメカニズムを反映した内部表現となります。

統計的手がかりを超えた因果判断

人間も「原因が結果に先行し、共変する」などの統計的手がかりから因果を推測しますが、単なる相関にとどまりません。背景にあるメカニズムや文脈を考慮して因果関係かどうかを判断します。

典型例として、夏場にアイスの消費と水難事故が共に増加するデータがあります。多くの人は「アイスが溺死事故を引き起こす」とは考えず、背後にある第三の要因（暑い気温が両方を増加させている）を推測します。このように、人間は単なる相関と真の因果を直感的に区別する能力を持っています。

介入と反事実的思考の重要性

人間の因果推論における最大の特徴は、自ら介入して結果を観察することと、反事実的思考を行うことです。前者は科学実験の基礎であり、幼児でもブロック遊びを通じて自分で事象を引き起こし因果関係を試す行動が見られます。

後者の反事実的思考は、起こった事象を頭の中でシミュレートし直し、原因の必要性を評価する思考プロセスです。「ブレーキを踏んでいれば事故は避けられたのではないか？」と考えることで、ブレーキ不履行が事故の原因だったかを評価します。これらの能力により、人間は能動的に因果関係を探求し検証することができます。

領域固有の因果推論モジュール

認知科学者の中には、人間が領域一般の因果推論メカニズムだけでなく、物理的事象用、社会的事象用など領域固有のモジュールを持つと主張する研究者もいます。

物理的因果では物体の衝突や力学に関する直観的理解（「物が自然に動き出すことはない」等）が働き、社会的因果では他者の心の状態や意図を読む機能が働きます。人間は文脈に応じて異なる因果原理を使い分けており、この柔軟性が因果推論を非常に強力かつ適応的なものにしています。

LLMと人間の因果推論：5つの重要な違い

1. 知識形成プロセスの違い

人間は生の感覚経験や試行錯誤から因果法則を体得し、現実世界を反映した内部モデルを構築します。一方、LLMは大量のテキストから統計的パターンを学習するため、知識は過去の記述に基づく模倣的・後追い的なものです。

この違いにより、LLMはトレーニングコーパスに存在する因果知識（「喫煙は肺癌のリスクを高める」など）を記憶していても、実世界のメカニズムを理解しているわけではありません。表面的な関連性の学習にとどまっているのが現状です。

2. 因果推論の方法論

人間は理論やメンタルモデルに基づき、「なぜそれが起こるのか」を演繹的・帰納的に考えます。自分の理論に反する事象に出会えばモデルを更新し、新しい仮説を打ち立てる柔軟性も持っています。

対照的に、LLMの推論は基本的に関連性のパターン照合です。与えられた入力に対し、過去に類似した関係があればそれを踏襲して答えを生成します。新規の組み合わせや文脈では推論が破綻しやすく、内在的な因果原理に基づいた推論は困難です。

3. 介入能力と学習方法

人間は能動的に環境へ介入して結果を観察し、因果関係の有無を確かめることができます。子供がおもちゃを操作して「どうすれば壊れるか」試すような行動は、因果学習の典型例です。

LLMは与えられたデータ以上のことを試す手段がなく、過去データの範囲を超えたif-thenの検証は自力では行えません。反実仮想の質問に対しても、人間は自身の因果モデルから推論しますが、LLMは訓練中に得た類似パターンに頼るのみです。

4. 因果解釈の質と誤り傾向

人間は因果関係を判断する際に背景知識や直観を総動員し、的確な推論ができる反面、確認バイアスや原因の錯覚といったバイアスも生じます。しかし、自身で検証したり他者と議論することで誤った因果推論を修正する能力があります。

LLMは一貫性のある説明を作る能力に長けている反面、事実無根の因果関係をそれらしく述べてしまう「幻覚」の問題があります。また、質問の仕方一つで答えが変わってしまう不安定さも見られ、状況の本質を捉えて因果を説明しているわけではないことが伺えます。

5. 予測と理解のアプローチ

AIのデータ駆動型予測と人間の理論駆動型因果推論は本質的に異なります。LLMは確率的パターン認識によって過去のデータに基づき出力を生成しますが、人間は因果理論に基づいて未知の状況にも対処し、新しい知見を生み出すことができます。

人間は前向きに因果モデルを想像して新知識を創出できる一方、LLMは過去データの統計に基づき「後ろ向きに」予測を行うアプローチにとどまっています。この違いが、両者の因果推論能力における根本的な差異を生み出しています。

因果推論を活用したLLMの応用可能性

因果探索アルゴリズムとの協調

因果推論能力の限界はあるものの、GPT-4のようなモデルを因果関係の発見に応用する試みが始まっています。一つの有望なアプローチは、GPT-4を伝統的な因果探索アルゴリズムと組み合わせる方法です。

この手法では、変数名だけが与えられたデータセットについてGPT-4に「どの変数がどの変数に影響を与えるか」を推測させ、その出力を制約条件として因果構造学習アルゴリズムに組み込みます。実験では、スポーツ統計や疫学データなどで、GPT-4が提案した因果グラフが人間の専門家の知見に近い構造を持つことが確認されています。

専門知識との融合による効果

GPT-4の示唆を「必須な因果リンクの固定」などの制約に用いることで、学習された因果ネットワークが専門家の知見に大きく近づくことが報告されています。これは、GPT-4が大量の知識から因果のヒントを引き出しうることを示しており、因果発見プロセスを支援するツールとしての可能性を示唆しています。

重要なのは、GPT-4自体は因果推論に特化して設計されたものではないという点です。それでも「十分な知識と適切な促しがあれば、GPT-4は因果的な表現を扱える有用なツールとなり得る」という結論が得られています。このアプローチは、モデルの限界を補い人間の専門知識や他のアルゴリズムと協調させることで、LLMの活用可能性を広げる試みといえます。

まとめ：因果推論の未来と研究の方向性

大規模言語モデルの因果推論能力について詳しく分析した結果、興味深い二面性が明らかになりました。一方では、既知の因果知識に関する質問や典型的な因果関係の認識において、GPT-4は人間に匹敵するかそれ以上の性能を示します。しかし、その推論過程はあくまで相関的パターンの模倣であり、新規状況での因果関係の発見や隠れた要因の洞察といった真の因果推論は依然として困難です。

人間の因果推論は、経験に裏打ちされた世界の理解、介入可能性、理論構築といったプロセスに支えられており、これらは現在のLLMには欠けている要素です。この違いは単なる性能差以上に、推論の質的な相違として現れています。

今後の研究では、LLMに人間のような因果推論能力を持たせるために、認知科学の知見を取り入れたモデル拡張が模索されています。因果関係を明示的に表現する中間構造の導入や、モデル自身が仮説検証の試行をシミュレートできるシステムの開発などが考えられます。また、人間とモデルが協調して因果推論を行うハイブリッドシステムも有望な方向性です。

大規模言語モデルと人間の因果推論メカニズムの比較から得られる知見は、より賢く信頼できるAIの構築に向けた重要なヒントを提供してくれるでしょう。

能動的推論モデルの内部表現可視化と説明可能性：AIの判断プロセスを理解する新たなアプローチ

汎心論とAI：意識の哲学から見る人工知能の可能性