AIの性能評価は長らく、正解との一致率や人間の好みへの近似度を軸に発展してきた。しかし、対話エージェントや身体を持つロボットが日常の文脈に埋め込まれて振る舞うようになるほど、「タスクに成功したか」だけでは測りきれない側面が浮かび上がる。文脈をどれだけ保持できているか、道具をどれだけ自然に使いこなせているか、失敗した後にどう立て直すか——こうした経験の構造を扱う哲学として、20世紀の現象学(フッサール、ハイデガー、メルロ=ポンティ)が近年、AI研究の側から再び注目されている。本記事では、現象学の中心概念をAIの評価指標へどこまで、どのように「弱く形式化」できるかを整理する。
なぜ今、現象学をAI評価に応用するのか
現象学は本来、意識にどのように世界が現れるかを記述する学問であり、機械の内部状態を測るための道具として作られたものではない。したがって「現象学の概念をそのままAIのスコアに変換する」というアプローチは、方法論的に無理がある。重要なのは、各哲学者が指摘した経験の構造を、観測可能な行動・対話・知覚行為・回復過程・人間側の体験報告へと分解し、既存の性能指標では拾いきれない層を上乗せすることである。近年のAI現象学研究も、性能や利便性の尺度だけでは人間とAIの相互作用に伴う体験の質を平板化してしまう可能性があると指摘しており、質的・混合的な評価ツールキットの必要性を論じている。
形式化の判断基準:何が指標になり得て、何がなり得ないか
すべての現象学概念が同じように扱えるわけではない。形式化の可否を判断するうえでは、次の三点が目安になる。第一に、その概念が観測可能な差異へ分解できるかどうか。第二に、その差異が反復して測定できるかどうか。第三に、測定によって概念の厚みが失われすぎていないかどうかである。
この基準に照らすと、フッサールの志向性・地平・生活世界、ハイデガーの世界内存在・手もと性・故障による顕在化、メルロ=ポンティの身体図式・運動志向性・習慣といった概念は、比較的高い形式化可能性を持つと考えられる。一方で、ハイデガーのEreignisやメルロ=ポンティの「肉」のように存在論的に厚みのある概念は、単一のスコアに縮約すると本質を損なう可能性が高く、評価設計の原理や質的分析の枠組みにとどめる方が妥当である。
既存のAI評価研究に目を向けると、BLEUやROUGEのような表層一致型の指標は、創造性や多様性が求められる生成タスクでは人間の判断とずれやすいことが知られている。BERTScoreやLLM-as-a-judge、HELMのような枠組みはこの弱点を補ってきたが、それでも文脈の連続性や社会的規範への適合といった側面までは十分に捉えきれていない可能性がある。現象学的な評価は、こうした既存指標を置き換えるものではなく、その上に重ねる拡張層として位置づけるのが現実的だろう。
フッサールの概念をどう指標に落とし込むか
フッサールの中心概念のうち、志向性・地平・生活世界は比較的翻訳しやすい。志向性は、AIが対話の中で何を求められているかをどれだけ一貫して捉え続けられるかとして観測できる可能性がある。具体的には、目標への遵守度、照応関係の安定性、前ターンからの制約の持続性などを組み合わせることで、目的の一貫性を評価する指標が構想できる。
地平の概念は、会話のある時点で開かれた前提や含意が、後続のやり取りでどれだけ適切に引き継がれるかとして翻訳できる。生活世界については、単なる一般常識ベンチマークではなく、日常の実践・制度・文化差・視点の違いの中でAIがどれだけ妥当に振る舞えるかを測る枠組みとして応用できる可能性がある。ただし生活世界を「唯一の正解知識ベース」と誤認しないよう注意が必要で、複数の文化圏や慣習を横断した比較設計が求められる。
一方でepochéのような操作は、性能指標というより評価プロトコルとして扱うのが妥当である。すなわち「AIに意識があるか」という形而上学的な問いを一旦棚上げし、現れ方・応答構造・使用経験そのものを分析対象にするという姿勢を、評価者側の態度として明示する役割を担うと考えられる。
ハイデガーの概念をどう指標に落とし込むか
ハイデガーの世界内存在、手もと性、故障による顕在化、共存在といった概念も、AI評価への応用余地が大きいとされる。手もと性は、道具(AIの機能やツール)がどれだけ自然に、対象化されずに使われているかとして捉えられ、ツール使用中の中断回数や手順の冗長さといった観測可能な量に落とし込める可能性がある。
particularly興味深いのは、故障による顕在化という発想である。ハイデガーによれば、道具は正常に機能している間は背景に溶け込んでいるが、壊れたときにはじめてその存在が顕在化する。この構造をAI評価に応用すると、正常時の成功率だけでなく、エラーや欠損情報を意図的に注入した際に、AIがどれだけ状況を再把握し、代替策を生成し、目標に立て戻れるかという回復過程が重要な評価対象になる。回復に至った割合と、回復までにかかった時間や試行回数を組み合わせることで、故障回復に関する指標が構想できる。
共存在については、AIが協働作業や助言の場面で、社会的な規範や役割、暗黙の了解にどう参加しているかを問う視点である。これは単なる好感度評価とは異なり、共同実践への埋め込みの度合いを見る評価であるという点に注意したい。人間評価と監査ログを組み合わせることで、この側面を部分的に捉えられる可能性がある。
メルロ=ポンティの概念をどう指標に落とし込むか
身体性と知覚を中心に据えたメルロ=ポンティの思想は、ロボットのように知覚と行動を伴うエージェントの評価に比較的直接応用しやすいとされる。身体図式は、視覚・触覚・位置・行為がどれだけ整合しているか、自己位置の推定がどれだけ安定しているかとして観測できる可能性がある。運動志向性については、状況からの働きかけにどれだけ的確に反応するかという側面と、目標に向けて自ら状況を構成していく側面の両方を組み合わせて捉える必要があるとされる。
習慣(sedimentation)は、繰り返し行われる課題の中で、AIがどれだけ滑らかに熟達し、過去の経験を保持できるかという観点から評価しうる。ただしこれは単なるキャッシュ的な再利用と区別する工夫が求められる。前反省的知覚については、長い推論を展開する前に、状況に即した初動をどれだけ適切に取れるかという観点から測定できる可能性がある。
一方で「肉」のような、自己と他者、身体と世界が相互に浸透し合う関係を指す概念は、単一の数値に落とし込むこと自体が概念の意味を損ないかねない。こうした側面は、人間とAIの長期的な相互作用を対象とした質的分析にとどめるのが妥当だろう。
既存の評価指標との関係と実務上の設計
現象学的な評価は、既存のAI評価指標を否定するものではない。むしろBERTScoreやHumanEval、MT-Bench、G-Evalといった指標を下位コンポーネントとして活用しながら、その上に文脈保持・故障回復・身体整合・価値表象の較正といった層を重ねる設計が現実的である。評価対象は、汎用の対話型言語モデルと、知覚・行動を伴うエージェントの二系列に分けて考えるとよい。前者では多ターン対話やツール使用、価値判断を伴うタスクを、後者では状況に埋め込まれた行動を要求するタスクを用いることが想定される。
評価の実施にあたっては、自動評価・人間評価・現象学的な観点を取り入れたインタビューを並行して行うアプローチが提案されている。これにより、性能指標だけでは拾いきれない「どのように感じられたか」という側面を、一定の体系性を保ちながら回収できる可能性がある。統計的な比較においては、対話や課題の単位でモデル間の差を検証し、人間評定については評定者間の一致度を確認したうえで、しきい値を慣習的に固定せず、実際のタスク誤差との関係から調整していく姿勢が望ましいとされる。
導入にあたっての留意点
現象学的な評価枠組みを導入する際にはいくつかの留意点がある。第一に、翻訳可能性には限界があるという点である。現象学は本来、AIに主観的な経験があるかどうかを証明するための学問ではなく、経験がどのように現れるかを問う学問である。「このモデルは世界内存在を持つ」といった強い主張に踏み込むことは、概念の使い方として過剰になる可能性がある。
第二に、還元主義や指標の形骸化への懸念である。ある指標を上げようとするあまり、実質的な理解を伴わない表面的な振る舞いが最適化されてしまう可能性は常につきまとう。単一の指標に依存せず、性質の異なる複数の測定方法を組み合わせることが、この種のリスクを緩和する一つの方向性と考えられる。
第三に、文化的な偏りへの配慮である。生活世界に関する評価は、特定の文化圏の規範だけを基準にすると、単なるローカルな慣習への適合テストに矮小化されかねない。複数の文化や制度、役割を意識的に組み込んだ設計が求められる。
まとめと次の研究テーマ
現象学の概念は、そのままAIの数値指標に一対一で対応させることはできない。しかし、志向性・地平・生活世界・世界内存在・手もと性・故障回復・身体図式・運動志向性・習慣といった概念は、観測可能な行動や対話、知覚行為へと分解することで、既存の評価指標を補完する「弱い形式化」として活用できる可能性がある。一方、Ereignisや「肉」のように存在論的に厚みのある概念は、単一スコア化を避け、評価設計の原理や質的分析の枠組みとして扱うのが妥当である。重要なのは、こうした評価を性能競争のための新たな万能スコアとしてではなく、既存の評価体系を補う多層的なプロファイルとして位置づける姿勢だろう。
今後は、こうした評価枠組みを実際のベンチマークやユーザー調査にどう落とし込み、文化的な偏りや指標の形骸化をどう防ぐかという実践面の検証が課題になっていくと考えられる。
コメント