言語獲得を巡る二つの革命的アプローチ
人間がどのように言語を習得するのか——この根本的な問いに対して、現代では二つの対照的なアプローチが注目を集めています。一つは、ノーム・チョムスキーが提唱した普遍文法(Universal Grammar; UG)理論であり、もう一つは近年急速に発展した大規模言語モデル(Large Language Models; LLM)による言語処理技術です。
普遍文法理論は、人間の言語獲得能力が生得的な原理によって支えられているという革命的な仮説を提示しました。対照的に、大規模言語モデルは明示的な文法規則を一切組み込まないまま、インターネット上の巨大なコーパスから統計的パターンを学習することで、驚異的な言語生成能力を実現しています。
本記事では、これら二つのアプローチを言語獲得の前提、学習メカニズム、データの役割、文法知識の表現形式という四つの視点から体系的に比較分析し、それぞれの限界と可能性について探究します。
言語獲得の前提:生得性か経験依存か
普遍文法の生得論的立場
チョムスキーの普遍文法理論は、人間には言語獲得のための生得的な能力が備わっているという前提に立脚しています。この理論では、生後わずかな幼児が短期間で母語を習得できるのは、普遍文法と呼ばれる先天的枠組みによって言語の基本原理をあらかじめ備えているからだと説明されます。
この「言語獲得装置」(Language Acquisition Device)仮説は、スティーブン・ピンカーによって「言語本能」とも呼ばれ、わずかな入力からでも文法規則を類推できる生物学的基盤が人間には備わっているとされています。実際、幼児は十分なフィードバックや明示的な訓練がなくとも、文法的に正しい新規文を次々と発話できる現象が観察されています。
チョムスキーは、この現象を行動主義的訓練では説明できず、刺激に対する独立性や歴史的非拘束性といった特徴を持つ人間言語を説明するには、心的な文法知識の仮定が不可欠だと論じました。このようにUGは合理主義的伝統の系譜に位置し、言語能力の先天性を前提とする理論的枠組みです。
大規模言語モデルの経験主義的アプローチ
対照的に、LLMを含むデータ駆動型のアプローチは経験主義的立場に近い特徴を示します。LLMは人間の言語に関する事前知識を何も組み込まないタブラ・ラサ(白紙)の状態から出発し、大量のテキストデータを通じて言語パターンを経験的に学習します。
例えば、OpenAIのGPTシリーズなどのモデルは、インターネット上の数十億から数兆語にも及ぶ巨大コーパスから統計的規則性を抽出することで、人間と遜色ない文を生成できるよう訓練されています。このアプローチは、かつてスキナーが提唱した行動主義的言語観や、子どもが統計的規則性を利用して言語構造を推測するという統計的学習理論にも通じる側面があります。
データ効率性の根本的な違い
特に注目すべきは、人間の子どもと言語モデルでは必要とする入力データ量が桁違いである点です。人間の幼児はせいぜい数百万語(推定500万トークン程度)の言語入力で母語に堪能になるのに対し、現在のLLMは同等の言語流暢さに達するためにペタバイト級(数兆語)のデータを要します。
この圧倒的な効率性の差は、UGが主張する生得的制約の重要性を示唆する一方で、LLMの統計的学習能力の限界も浮き彫りにしています。人間の言語習得がごく限られた経験から可能であるのに対し、LLMは莫大な経験に依存している現実があります。
学習メカニズム:演繹的推論か統計的帰納か
普遍文法の演繹的学習プロセス
UG理論に基づく言語獲得は、しばしば演繹的プロセスとして描写されます。子どもは生得的に与えられた普遍文法の原理(例えば「文は階層構造を持つ」など)に基づいて、母語の具体的な文法ルールを推論し設定すると考えられています。
チョムスキーの原理とパラメータ理論では、UGに含まれる一般原理と可変なパラメータの組み合わせによってあらゆる人間言語が記述できるとされ、子どもは言語入力に触れる中で自らの言語のパラメータ値を演繹的に決定していきます。この過程では、UGが仮説空間にあらかじめ制約を与えるため、子どもは限られたデータから可能性の高い文法だけを素早く選別できるとされています。
この学習バイアス(帰納のための先天的制約)がなければ、子どもは膨大な文法の可能性に圧倒され、限られた幼児期のうちに正しい文法体系に「収束」することは不可能だろうと指摘されています。実際、形式学習理論の結果(Goldの定理など)も、何の制約もない純粋な帰納では言語獲得は計算的に不可能であることを示唆しており、このことがUG仮説の論拠とされてきました。
LLMの帰納的・統計的学習
一方、LLMの学習メカニズムは典型的に帰納的・経験的です。LLMは与えられた大量のテキストからパターンを統計的に帰納し、次に出現しうる単語を予測できるよう内部パラメータを調整します。この過程では、人手で記述された文法規則は使用されず、モデルは反復的な最適化によって、言語の確率的構造を徐々に自律的に発見します。
LLMの背後にあるTransformerアーキテクチャでは、多層の自己注意機構とフィードフォワード層がテキスト内の単語間関係を学習し、高次元ベクトル空間に言語知識を暗黙的にエンコードします。こうした統計的手法は人間の学習とは異なり、人間が明示的に理解できる「原理」を介さずデータから直接パターンを抽出する点でデータ主導的です。
学習バイアスの質的相違
完全に無制約というわけではなく、モデルの構造(ネットワークの層や注意機構など)は一種の「学習バイアス」を提供してはいます。しかしそのバイアスは人間のUGに比べはるかに汎用的であり、言語専用の事前知識ではありません。
研究者らは、人間のように少ないデータで効率よく学習させるには、現在のLLMに言語本能に類する構造的な事前知識を組み込む必要があるのではないかと議論しています。総じて、UGがトップダウン的(原理先行型)の学習観を採るのに対し、LLMはボトムアップ的(データ駆動型)な学習観に立脚していると言えます。
データの役割:刺激の貧困か豊富な経験か
普遍文法における「刺激の貧困」論
UG理論の中心には「刺激の貧困」(poverty of the stimulus)と呼ばれる議論があります。これは、「子どもが触れる言語入力(一次言語データ)は不完全で曖昧にもかかわらず、子どもはそれをはるかに超える知識を獲得する」という観察に基づいています。
例えば、子どもは話しかけられる文のごく一部しか文法的多様性を含まないにもかかわらず、自分が一度も聞いたことのない文を正しく理解・生成できます。チョムスキーは具体例として、疑問文形成における構造依存性の原理を挙げています。
英語で「The boy is hungry.」を疑問文にするとき、表層的に最初に現れる”is”ではなく主要部である動詞”is”を文頭に移動する(「Is the boy hungry?」)という規則があります。子どもはこのような構造に依存した規則を、明示的な指導がなくても習得します。
仮に子どもが単純なパターンマッチで学習したのなら、「The boy who is smiling is hungry.」を誤って「*Is the boy who __ smiling __ hungry?」といった非文法的疑問文にしてしまうはずです。しかし実際にはそのような誤りはほとんど見られません。
大規模言語モデルのデータ依存性
これに対し、LLMは大量のデータに依存することで言語能力を獲得します。LLMは人間の子どもとは異なり、インターネット上の膨大なテキスト(書籍、ウェブ記事、SNS投稿など)を学習することで、高度な言語モデルを構築します。
例えばGPT-3は数千億語規模のコーパスで事前訓練されており、GPT-4ではさらに多くのデータが用いられていると言われます。驚くべきことに、子どもは500万トークン以下の露出で母語を習得するのに、LLMはそれと比べ物にならない桁違いのデータを必要とします。
LLMがこれほど大量のデータを必要とする理由の一つは、UGのような事前知識が無いために、データからパターンを統計的に抽出するしかないからだと考えられます。その結果、データが不足すると不安定な出力や文法不整合が生じやすく、人間の子どものような頑健さには欠ける傾向があります。
もっとも最近の研究では、データ量の増加に伴いLLMが人間に近い言語直感を示すケースも報告されています。しかし依然として、UGが主張する「刺激の貧困」を埋め合わせるために、LLMは桁違いのデータ投入で対応している状況であり、データ利用の効率性において両者には大きな差があります。
文法知識の表現:明示的規則か潜在的パターンか
普遍文法のシンボリック表現
UGに基づくモデルでは、言語の文法知識は明示的な規則や原理として心的に表現されると考えられています。生成文法学派の研究では、各言語の統語構造は階層的な句構造規則や変形規則によって記述され、話者はそれらの規則を内在化していると仮定されます。
例えば「主語-動詞-目的語」という語順規則や、先行詞と関係代名詞の一致制約、島規約など、多くの文法原則が明示的に提案されてきました。UGはそうした原理・パラメータの集合を生得的に提供し、個別言語の習得時には必要なパラメータ値を設定するだけで済むというのが基本的な構想です。
このアプローチでは、学習結果として子どもの頭の中に一貫した文法体系(I言語)が構築されます。したがって、人間の言語運用は基盤に明示的かつ構造化された知識を持ち、その知識に基づいて文が生成・理解されると考えられます。
LLMの分散表現システム
一方、LLMが身につける「文法知識」は、人間とは表現形式が大きく異なります。LLMの文法知識はモデル内の重みパラメータの分布として暗黙的(潜在的)に埋め込まれています。これは、LLMが十分な訓練データを与えられたとき、結果的に文法的に整合した文を生成できるようになるものの、その過程で獲得された知識は明示的な規則の形では取り出せないことを意味します。
実際、Transformerモデルでは膨大な数値パラメータが単語間の関係や文脈を符号化しており、人間が読める「文法書」が内部に格納されているわけではありません。いわばLLMは言語の統計的傾向を大量の次元に埋め込んだ状態で文を扱っているに過ぎず、その内部には主語や目的語といった明確なラベルで区別された構造情報は存在しません。
文法判断における差異の具体例
この違いは、具体的な文法判断の場面で顕在化します。研究によると、GPT-3.5に対し複雑な関係節を含む文の文法性判断を問うと、GPT-3.5は人間が非文法的と判断する文を確率的なもっともらしさに基づいて誤って受容してしまうケースが報告されています。
例えば、「This is the boy that Mary met yesterday and will talk to tomorrow.」は正しい英語文ですが、「This is the boy that Mary met yesterday and will talk to you tomorrow.」は関係代名詞の先行詞の不一致ゆえに非文法的です。しかし、GPT-3.5は後者を「明確に情報を伝えている」という理由で誤って文法的と判断したという報告があります。
人間の話者は後者が非文であることを直感的に察知できます。関係節内の動詞「talk to」の目的語が先行詞「the boy」と一致せず、文全体の構造が破綻しているからです。しかしGPT-3.5は、「talk to」の直後には高確率で代名詞「you」が続くという表層的な共起に引きずられ、本来の構造違反を見抜けませんでした。
この例は、人間の文法知識が階層的構造に基づいて明示的に組織化されているのに対し、LLMの「知識」は大量データに基づく統計的パターンとして潜在的に機能していることを示唆しています。
両アプローチへの批判と限界
普遍文法理論への主要な批判
チョムスキーの普遍文法仮説は言語学に革命をもたらした一方で、近年多方面から批判にさらされています。第一に、UGが想定する「すべての言語に共通する普遍的文法原則」の実在性について疑問が提起されています。
多くの研究者は、世界の言語の多様性を詳細に調査した結果、真に例外のない言語普遍はほとんど存在しないと指摘しています。例えば語順や格標示、階層構造の投射原理など、一見普遍的に思える特徴も、例外や反例が見つかったり、言語によって大きく異なる振る舞いを示したりします。
ニコラス・エヴァンズとスティーブン・レヴィンソンは「言語の多様性こそが説明すべき事実であり、普遍性の神話は再考を要する」と論じ、UGが提示する普遍原則の多くは実は強い傾向に過ぎないと主張しました。
第二に、UGの内容自体が明確でないという批判もあります。UGに何が含まれるかについて研究者間で一致した見解がなく、提唱者によってしばしば定義が変わるため、UG仮説は検証不能あるいは循環論法的だと批判されています。
大規模言語モデルの課題と限界
LLMの驚異的な成果にもかかわらず、そのアプローチにはいくつかの限界が指摘されています。第一に、LLMはあくまで統計的相関に基づいて言語を生成しており、そこに意味の理解や創発的な認知が伴っていないのではないかという懸念があります。
エミリー・ベンダーらは巨大モデルを「確率的オウム」(stochastic parrot)になぞらえ、LLMは訓練データ中の語の出現パターンを巧みに再生産しているに過ぎず、生成する内容の意味を真に理解しているとは言えないと論じました。実際、LLMはしばしば文法的には正しく流暢でも、現実世界の知識に照らして意味的に不合理な文や事実誤認を生み出すことがあります。
第二に、LLMは内部に明示的な世界知識や論理規則を持たないため、論理的推論や長距離の意味統合を苦手とする場合があります。例えば、ある文脈で指示対象を一貫して保つ(照応解決)や、文章全体の一貫性・整合性を評価するといった高次の言語技能は、統計的予測だけでは不十分な場合があります。
チョムスキーは、現在のAI言語モデルは内部に人間のような文法原理や意味構造を備えておらず、単に膨大なデータに基づいて「もっともらしい出力」をシミュレーションしているに過ぎないと厳しく批判しています。彼は「膨大なデータで言語現象を模倣することはできる。しかしシミュレーションは説明ではない」と述べ、LLMには言語の真の理解原理が欠けていると指摘しました。
まとめ:補完的理解への道筋
チョムスキーの普遍文法理論と大規模言語モデルは、言語獲得という共通の現象を説明しようとしながら根本的に対照的なアプローチを取っています。UGは人間の言語能力の生得的側面と最小限のデータでの獲得を強調し、一方LLMは経験からの学習と大規模データ活用による言語機能の再現を追求しています。
それぞれの立場は互いに批判を投げかけつつも、双方の研究から得られる示唆は重要です。UGの視点は、人間の言語習得の速さ・普遍性を説明しようとする点で認知科学に重要な課題を提示してきました。一方、LLMの成功は、明示的ルールなしでも統計学習によって相当程度の言語能力が実現可能であることを示し、UGの必要条件を再検討させる契機ともなっています。
今後の言語研究においては、これら二つのアプローチの統合的理解——例えば、生得的制約と統計的学習の相互作用——を探ることが重要となるでしょう。現時点では、UGとLLMはそれぞれ長所と限界を持つ補完的なモデルと位置づけられます。UGは人間の言語獲得能力の理想化モデルとして理論的洞察を与え、LLMは言語処理の実装モデルとして工学的・経験的知見をもたらしています。
両者の対比を通じて、人間と言語、そして知能の本質に関する理解が今後さらに深まることが期待されます。言語の謎を解き明かす道のりはまだ続いており、異なるアプローチの対話こそが新たな発見への鍵となるでしょう。
コメント