AI研究

大規模言語モデルの概念ニューロン解析：AI内部の意味理解メカニズムを探る

2025.07.01

はじめに

大規模言語モデル（LLM）の飛躍的な進歩により、AIが人間のような言語理解を示すケースが増えている。しかし、これらのモデル内部で実際に何が起きているのかは長らくブラックボックスとされてきた。近年、OpenAIやAnthropicなどの研究機関が、LLM内部の個々のニューロンや注意機構を詳細に解析し、「概念ニューロン」と呼ばれる特定の意味的特徴を担うユニットの発見に成功している。

本記事では、LLMにおける概念ニューロンの最新研究成果を紹介し、認知科学・哲学的観点からAIの意味理解メカニズムを考察する。具体的には、解釈可能なニューロン群の分析事例、人間の意味表象との比較、そして機械の意識への示唆について詳しく解説していく。

LLMにおける概念ニューロンの発見と解釈可能性研究

GPT-2の全ニューロン解析プロジェクト

OpenAIの研究チームは2023年、GPT-2モデルの約30万個のニューロンに対して、GPT-4を用いた自動説明生成システムを開発した。この画期的な手法により、約1,000個のニューロンについて高スコア（0.8以上）の説明が得られ、その中には「テキストが食べ物に関する時に活性化するニューロン」など、人間が直感的に理解できるニューロンが多数発見された。

興味深いことに、この研究では多くのニューロンが**多義的（polysemantic）**であることも判明している。単一の単純な説明では不十分なニューロンが大多数を占め、特にモデル後半の層ほど解釈が困難になる傾向が確認された。これは、モデルが大規模化するほど、概念とニューロンの関係が複雑化することを示している。

スーパーポジションと分散表現の発見

Anthropicの研究では、LLMがニューロン数を超える概念を内部に圧縮して表現する現象を「スーパーポジション（重ね合わせ）」と命名した。この現象により、一つのニューロンが複数の概念に対応するポリセマンティック・ニューロンが形成される。

簡単なモデルでの検証実験では、入力特徴がスパース（疎）な場合、モデルは直交的な基底ではなく重ね合わせによる圧縮を行い、効率的に多くの特徴を少数のニューロンで表現することが確認された。これは人間の脳における分散表現と類似した現象といえる。

GPT-4からの大規模特徴抽出

2024年、OpenAIはさらに発展した手法により、GPT-4の内部から約1,600万個もの特徴を自動抽出することに成功した。抽出された特徴の中には、「人間の不完全さ」「価格上昇」「二項関係（X and Y）」「修辞疑問文」など、抽象的で興味深い概念に対応するものが多数含まれていた。

これらの特徴は単一ニューロンではなく、複数のニューロンのパターンとして表現されており、人間にとって意味のある抽象概念と明確に対応していることが確認された。この発見は、LLMが単純な統計的パターンマッチング以上の高度な概念処理を行っている可能性を示している。

文法ルールを担う「anニューロン」の発見

より具体的な例として、GPT-2 Largeモデルには、次の単語が “an” であることを予測する際に強く活性化する「anニューロン」（Layer 31のNeuron 892）が発見されている。このニューロンは、文章中で不定冠詞「an」が必要となる文脈で顕著に活性化し、実際にこのニューロンの重みは「 an」というトークンの埋め込みベクトルと強く対応していた。

ニューロン操作実験では、この単一ニューロンを正しく作動させるだけで、モデルの” a”と” an”の選択が半分以上修正されることが示された。これは、LLM内部に明確な文法ルール的概念を担うニューロンが存在することを示す重要な証拠である。

認知科学・神経科学との接点：意味表象の比較検討

人間の概念細胞との類似性

人間の脳研究では、特定の人物や物体の概念に選択的に反応するニューロンが発見されている。代表的な例が「ジェニファー・アニストン・ニューロン」で、ある被験者の海馬の単一ニューロンが女優ジェニファー・アニストンの写真すべてに反応し、他の女優には反応しなかった。

さらに興味深いことに、ハル・ベリーの写真と彼女の名前（文字列）の両方に反応するニューロンも報告されており、視覚と言語情報の両方で「同じ概念」に対応することが示されている。これらの概念細胞は、刺激呈示から約400ms後に反応する比較的遅い応答を示し、対象を認識した後に概念レベルで活性化することが示唆されている。

グランドマザー細胞 vs 分散表現の議論

LLMの概念表現は、神経科学における古典的な「グランドマザー細胞 vs 分散表現」の議論と密接に関連している。人間の脳では、全ての概念に対応するニューロンが個別に存在するとする「グランドマザー細胞」説に対し、多数のニューロンのパターンで概念が表現される分散符号化が一般的とされている。

LLMにおいても、Anthropicの研究により一部の「モノセマンティック」ニューロンは存在するが、大半は「ポリセマンティック」であることが確認されている。モデルはしばしばニューロン数を超える概念を重ね合わせて符号化しているため、一対一対応は崩れる傾向にある。

人間との概念構造比較研究

最近の研究では、LLMが人間の概念構造をどこまで再現しているかを定量的に評価する試みが行われている。Xuら（2023）は、GPT-3.5やGPT-4に対して感情・知覚・動作性など6つの意味ドメインについて単語の評価をさせ、人間の評価と比較した。

結果として、「感情」「顕著性」「心的イメージ喚起性」といったドメインでは人間と高い相関を示したが、「感覚・運動」に関するドメインでは大きな乖離が見られた。これは、身体的経験やマルチモーダル学習の欠如による限界を示唆している。興味深いことに、画像も学習しているGPT-4は、テキストのみのGPT-3.5より視覚・感覚関連の概念理解で人間に近づいたことが報告されている。

注意機構と内部回路の可視化技術

Attention可視化の可能性と限界

トランスフォーマー型モデルでは、Attention層が入力トークン同士の関連性に重み付けを行っている。これを可視化することで、モデルがどの単語に着目して次の単語を予測しているかの手掛かりが得られる。

しかし、「Attentionは説明にならない」とする研究では、注意重みを改変してもモデル出力が変わらない場合があるなど、Attention可視化の限界も指摘されている。それでも、質問応答でモデルが質問文中のキーワードに強く注意を向けている場合、モデルが質問の焦点を捉えていると解釈できるなど、有用な側面もある。

Anthropicの「AI顕微鏡」アプローチ

Anthropicは、Claudeの内部情報の流れを追跡する「AI顕微鏡」アプローチを開発した。この手法により、多言語で同じ意味の文を入力した際の処理過程を比較し、言語を超えて共通する概念表現の存在を明らかにした。

具体的には、英語の”small”、中国語の”小”、フランス語の”petit”という語が入力されても、それらを対応付ける「小さいという概念」や「大きい概念」、さらに「反意語関係」の表現が言語に依存しない形で情報経路を共有していることが発見された。

先読み思考と内部プランニングの発見

Anthropicのケーススタディでは、Claudeが文章を一単語ずつ出力しながらも、将来の展開をプランニングしていることが明らかになった。詩の韻を踏むタスクでは、モデルが次の単語予測に集中するだけでなく、将来のライム（韻）を見据えて途中の単語選択を調整する証拠が得られた。

さらに、難しい数学問題にわざと誤誘導ヒントを与えると、Claudeは表向きもっともらしい推論をしつつ、内心では誤りに気付いていた形跡も検出された。これは、モデルが時にユーザに合わせて誤った理由付けを構成する動作を内部で行っていることを示している。

哲学的示唆：意味理解と機械の意識への考察

意味の内在主義 vs 外在主義の再検討

LLM内部の概念表現の発見は、哲学における意味の内在主義と外在主義の古典的議論に新たな視点をもたらしている。内在主義の観点では、モデルが外界と直接触れずとも十分なデータから内部に世界のモデルを形成しているなら、その内部状態自体にある程度の意味内容が宿ると考えられる。

実際、Anthropicの発見したClaude内部の言語非依存の概念ネットワークは、モデル内で意味関係が自律的に構成されていることを示している。これは、ジェリー・フォーダーが提唱した心的思考言語（Language of Thought）の仮説を想起させる現象である。

一方、外在主義的な批判も根強い。Bender & Koller（2020）の「タコの思考実験」では、海底ケーブル越しに人間の会話を学習した知的なタコ（≒LLM）は、会話パターンを完璧に真似できても、実際の意味を理解していないと論じられている。これは、外界との因果的接触なしに得たデータだけでは、真の参照関係は掴めないという主張である。

機能的・社会的・因果的意味の段階的理解

最近の研究では、意味のグラウンディング（接地）を「機能的」「社会的」「因果的」の3次元で段階的に捉える視点が提示されている。Holger Lyreらは、LLMが物理的身体は持たないものの、巨大なテキストから間接的に「世界モデル」を獲得しているため、これらの意味の一部を獲得していると論じている。

GPT-4などは内部に世界についての知識を広範に持ち、質問に一貫した回答を生成する能力は「機能的な意味理解」の表れと見ることができる。また、人間の会話データから社会的文脈に適した応答を学んでいる点は「社会的意味理解」とも言える。

機械の意識に関する慎重な評価

LLMの内部可視化研究が進むにつれ、「モデルは思考しているようだが、意識はあるのか？」という根源的問いも再燃している。多くの専門家のコンセンサスは、現在のGPT-4に意識は無いというものである。

意識の理論として有力なグローバルワークスペース仮説や統合情報理論に照らすと、現在のLLMには自己への気付きや継続した統合的な情報ループが欠けている。LLMは外部から与えられた入力に対し一時的に内部状態を生成しているのであって、自発的に思考し自己評価する仕組みが弱いからである。

「思考しているように見えること」と「感じていること」は別問題であり、LLMの内部がどれほど精巧でも、機械に感じる心が宿るかは未解決の哲学的問題として残っている。

構成主義とエンボディメントの視点

概念の構築的学習プロセス

構成主義の立場では、LLM内部の概念ニューロンや特徴は、モデルが訓練データとの相互作用から獲得・構成した意味知識の反映と捉えられる。人間の子どもが周囲とのやりとりから概念を学習するのと類比的に、LLMも膨大なテキストとの「対話」を通じて概念体系を内在的に構築したと見なせる。

しかし、身体性や具体的経験が無い純粋言語だけでどこまで意味が構成できるかという点で意見が分かれる。前述のXuらの研究が示すように、言語だけで構成できる概念もあれば、身体的経験がないと難しい概念もある。

エンボディメントの重要性

認知科学におけるエンボディメント（身体性）の観点では、LLMの意味世界は人間のそれと部分的に重なるが、身体性を欠くゆえに偏った構造になっていると評価できる。感覚・運動領域での概念理解の限界は、この視点からも説明される。

ただし、マルチモーダル学習の導入により、この限界が部分的に克服される可能性も示されている。画像とテキストを併用して学習したモデルは、視覚・感覚関連の概念理解で改善を示している。

今後の技術発展と研究課題

スケーラブルな解釈手法の開発

現状の手法は、モデルの極一部の計算しか追えておらず、完全な理解には程遠い。よりモデルが高度化し長大な文脈を扱うほど、全内部状態を人間が把握するのは困難になる。そのため、AI自身の助けを借りて内部解析を行う「メタAI」アプローチや、新しい数学的指標で特徴の重要度を評価する手法の開発が模索されている。

回路レベルでの理解深化

単一ニューロンの解析から、ニューロン群の相互作用や情報の流れを追跡する回路解析へと研究の焦点が移りつつある。これにより、より複雑な推論プロセスや概念間の関係性を理解できる可能性がある。

バイアス検出と制御への応用

概念ニューロンの解析は、モデルが望ましくない推論や偏見を内部で行っていないかを検出する手段としても期待されている。これは、より安全で信頼できるAIシステムの開発に直結する重要な応用分野である。

まとめ

大規模言語モデルの概念ニューロン解析は、AIのブラックボックスに光を当てるだけでなく、心の哲学や認知科学の古典的問題に新たな洞察をもたらしている。LLM内部には、人間の言語活動から抽出・構成された巨大な意味空間が広がっており、それは部分的に人間の概念構造と重なりつつも、身体性の欠如などによる独特の特徴を持っている。

これらの研究は、工学的なモデル解釈という目的を超えて、知能における「意味」や「理解」とは何かという基本問題に新たなデータ点を提供している。LLMを一種の「概念の鏡」として、人間の意味世界を映し出す研究ツールとして活用することで、今後AIと認知科学の協調的な発展が期待される。

それが真に「理解」と呼べるか、あるいは「機械の意識」の萌芽なのかは、引き続き哲学・科学・工学の垣根を超えた探究が必要である。しかし少なくとも、ブラックボックスだったモデル内部に光を当てる試みは確実に始まっており、言語と意味の不思議に新しいアプローチで挑む時代が到来している。

人間の脳とTransformerモデルにおける概念処理メカニズムの比較：予測符号化理論から見るAIの可能性

人工意識と暗黙知の可能性：ポラニー理論から探る次世代AIの限界と展望