なぜ今、量子認知とLLMの接点が重要なのか
大規模言語モデル(LLM)は「同じ内容でも質問の順序が変わると答えが変わる」という感受性を持つことが、複数の研究で示されています。しかし、これを「なんとなく順序に敏感」という観察で終わらせるのと、量子認知の厳密な検定式を使って理論的に測定するのとでは、科学的価値がまったく異なります。
量子認知は「脳が量子コンピュータである」という主張ではありません。補完性・重ね合わせ・干渉といった数学的原理を認知現象の記述に応用する研究プログラムです(Busemeyer & Wang, 2015)。この枠組みをLLMに移植することで、モデルの応答生成を「文脈依存の測定過程」として定式化し、QQ equality の成否と選言干渉残差という二つの理論拘束付き指標で「量子認知的非可換性があるかどうか」を問えるようになります。
本記事では、実験設計の原理から刺激ペアの構築、API実装の要点、統計解析のフローまでを体系的に紹介します。

QQ modelと量子認知の基礎概念
順序効果とはなにか
Wang & Busemeyer(2013)のQQ modelは、心理測定における順序効果を精密に捉えるために提案されました。二値質問AとBをAB順序とBA順序で提示したとき、個々の回答確率には順序差があってよいとしながらも、「答えが食い違う確率の総量は順序間で等しい」というQQ equality(不等号なき等式)を事前に予測します。
数式で示せば、次のとおりです。
p(A_yB_n) + p(A_nB_y) = p(B_yA_n) + p(B_nA_y)
この等式が成立するかを検定する量が q-test(q = p_AB − p_BA = 0 の検定)であり、BayesモデルやMarkovモデルは一般にこの等式を満たさないと原論文は論じています。QQ equalityは無パラメータかつ事前的な予測なので、「モデルを後付けでフィットさせた」という批判を受けにくい理論的な強みがあります。
選言効果とsure-thing principleの破れ
Tversky & Shafir(1992)が示した選言効果は、次のような現象です。「結果Aが出たと分かっているときも、Aが出なかったと分かっているときも、行動Xを選ぶ」のに、「結果が未知のとき」だけXを選ばなくなる。これは古典的なsure-thing principleに反します。
Pothos & Busemeyer(2009)は、古典的なMarkovモデルでは未知条件の選好が必ず既知条件の凸結合に縛られるのに対し、量子モデルでは干渉項によってそこから外れることができると示しました。LLMに移植するとき、この「未知条件が凸結合から外れるか」を干渉残差として数値化できます。
LLMへの移植——三層の主仮説
第一層:順序非可換性(NCI)
LLM版では、各刺激ペアに対して AB順序と BA順序の応答分布を比較し、Jensen–Shannon距離(JSD)で非可換性指標NCIを定義します。
NCI = JSD(P_AB(y), P_BA(y))
JSDは対称で有限値を取るため、二分布間の距離として扱いやすく、SciPyにも直接実装されています。NCIは「非可換性の大きさ」を示す量であり、QQ equalityの成否とは独立に計算できます。
第二層:QQ-LLM検定
LLM版のq値は次のように定義します。
q̂_LLM = [p̂_AB(Y,N) + p̂_AB(N,Y)] − [p̂_BA(Y,N) + p̂_BA(N,Y)]
これが0に近いかどうかが検定の核心です。LLMの応答はseed・刺激・モデルによるクラスタ依存があるため、実務上は刺激・seed・modelをクラスタにしたブートストラップ信頼区間でq̂_LLMを評価するのが安全です。
第三層:選言干渉残差(DE-NCI)
選言効果タスクでは、既知A・既知¬A・未知Uの三条件を設け、古典的混合分布からのズレを次で測ります。
DE-NCI = JSD(P_U(y), wP_A(y) + (1−w)P_¬A(y))
この量が正の値を取り、かつそれが曖昧性回避や位置バイアスで説明しきれない場合、選言干渉の証拠として解釈できます。ただし「量子的」と即断せず、命令の不明瞭さ(instruction ambiguity)や応答スタイルの保守傾向との競合説明を立てることが不可欠です。
実験設計——日本語刺激100ペアの構築方針
五つの刺激領域
刺激は日本語中心で五領域に分けます。
- 因果推論:「雨が降った/道路が濡れている」のように因果方向の自然さを問う
- 証拠評価:「指紋が見つかった/その人物が現場にいた」のように証拠の強さと方向を問う
- 規範判断:「未成年である/飲酒してよい」のように許可・禁止の妥当性を問う
- 社会的意図:「返信が一言だけ/怒っている」のように対話の含意を問う
- 計画・方略:「締切が近い/重要度が高い」のように優先順序の判断を問う
各領域20ペア、合計100ペアを準備します。各ペアは、A/Bを入れ替えたときに論理的には対称に見えても、実際には非対称な因果・証拠方向・規範方向を持つように設計することで、非可換性が現れやすくなります。
刺激設計の原則
刺激ペアを設計するうえで重要な点は、表層の語順差ではなく、情報の流れる方向の差を操作することです。たとえば因果領域では「原因→結果」と「結果→原因」の方向を入れ替えることで、モデルが因果の向きをどのように処理するかを検出できます。規範領域では「条件→許可」と「許可→条件」の順序を操作することで、モデルが規則適用の向きに対してどう反応するかを見ます。
APIと実装の要点
逐次呼び出しによる順序効果の設計
設計上の最重要点は、Q1とQ2を同時提示せず、必ず「Q1呼び出し→応答確定→同一会話履歴にQ2追加」という二段API呼び出しで実施することです。Q1時点でQ2が可視になってしまうと、純粋な「測定順序」にならず、順序効果ではなく一括提示の並列評価になってしまいます。
会話は各試行(trial)ごとに完全リセットします。これにより、前の試行の残響が測定値に混入することを防げます。
出力形式の固定
主分析は**強制ラベル出力(forced-choice JSON)**で行います。推奨出力形式は以下のとおりです。
json
{"answer": "YES", "confidence": 80}
JSON schemaを満たさない応答は再試行1回まで許容し、それでも失敗した場合はPARSE_FAILとして別カテゴリに退避します。自由記述は副次分析として別runで収集し、埋め込み(embedding)+クラスタリングで意味分布差を見る設計にします。
固定すべきパラメータ一覧
再現性確保のために固定が必要なパラメータは次のとおりです。
- system prompt(全モデル共通の固定テキスト)
- モデルのsnapshot ID(family名だけでは不十分)
- temperature(confirmatory分析では最小ランダム性設定)
- seed(APIが対応する場合。非対応では反復数を増やす)
- max tokens(schemaを満たす最小限に制限)
- 対話履歴リセットポリシー(trial間は完全リセット)
特に重要なのは、同じモデルファミリー名でもバックエンド更新で挙動が変わる可能性があるため、論文やレポートにはfamily名だけでなくsnapshot/versionを明記することです。
統計解析フローと測定指標
主分析モデル
主分析は二本立てで構成します。第一は、run単位の二値応答に対するGLMM(一般化線形混合モデル)です。固定効果として順序条件・テンプレート種別・領域・モデルファミリー・temperatureを含め、ランダム効果として刺激・ペア・モデル・seedを入れます。第二は、刺激単位の連続指標NCI/DE-NCIに対するLMMです。
多重比較補正と効果量
確認的な一次仮説群は「NCI・QQ-LLM・DE residual」の三族に分け、各族内はHolm法で第I種過誤を制御します。探索的な分析にはFDR管理を併用します。効果量としては、NCI/DE-NCIの点推定と信頼区間、q̂_LLMとそのブートストラップCI、GLMMの限界効果とオッズ比、生の比率差を必ず併記します。
サンプルサイズの目安
厳密なサンプルサイズはGLMMのシミュレーションで決めますが、初期設計の目安として「100刺激×150反復/順序/モデル」を第一候補とし、パイロット実験の分散成分を見てからsimr等で調整するアプローチが現実的です。大きな順序効果(Δp ≈ .20)なら1条件あたり約100反復で80%power近くに達しますが、中程度効果(Δp ≈ .10)には約390反復/条件が必要になることが近似計算から示されています。
結果解釈のシナリオと注意点
QQ equalityが成立した場合
順序効果が存在しつつQQ equalityも概ね成立するなら、観測された順序効果はQQ型非可換性と整合的です。これは単純な位置バイアスより強い理論的制約を満たしているため、本研究で最も興味深い結果になります。この場合、次段階として多値版QQ制約や、response replicability effectとの同時検証へ進む価値があります。
QQ equalityが破れた場合
順序効果は大きいのにQQ equalityが系統的に破れるなら、「非可換ではあるがQQ modelの素朴な射影測定版では説明できない」と読むのが妥当です。hidden system behavior、モデレーションレイヤー、長文脈の位置バイアス、あるいはquantum instrument theory的なより一般の測定過程が必要な可能性があります。
選言効果が観察された場合
未知条件の分布が既知条件の凸結合から系統的に外れるなら、LLMもsure-thing principleに反する意思決定パターンを示したことになります。ただし、この場合も「未知条件が曖昧さを増して保守的応答を誘発した」という説明と競合するため、unknown条件のwording操作は「情報の欠如」という一点のみを変え、他の要素は固定することが設計上の肝です。
まとめ——この研究の意義と次に掘り下げるべきテーマ
本研究の核心的な価値は、「LLMが順序に敏感かどうか」という観察論にとどまらず、QQ equalityと選言干渉残差という理論拘束付きの検定式で測ることにあります。先行するLLM研究(Lu et al. 2022; Chen et al. 2024; Yin et al. 2026など)は順序感受性を広く示していますが、量子認知の原典に忠実な形でLLMの逐次対話に適用した専用研究は現時点では少なく、本設計はその空白を埋める新規性を持ちます。
実験設計の要点は三つです。①逐次API呼び出しでQ1とQ2を分離し純粋な測定順序を作る、②強制ラベルJSONで主分析を行いQQ-LLMとDE-NCIを直接計算する、③モデルsnapshot・seed・system promptを完全固定して再現可能なログを残す。
順序感受性そのものは先行研究で十分に示されています。勝負どころは、量子認知の検定式をいかにクリーンに移植できるか、そして観測された差異を「量子的」「プロンプト仕様の不備」「位置バイアス」の三つに分離できるかです。
コメント