AI研究

AIは発散的思考を高めるか阻害するか？研究が示す「条件」と設計の実践知

2026.05.22

生成AIが普及するにつれ、「AIを使えばアイデアが豊かになる」という期待と、「AIに頼るほど自分で考えられなくなる」という懸念が同時に広がっている。どちらが正しいのか。答えは単純ではなく、AIが創造性を促進するか阻害するかは、導入の「条件」によって変わるというのが、現在の研究が示す最も重要な結論だ。

本記事では、28研究・8,000名超を統合したメタ分析や、Nature系列誌に掲載された実験研究を軸に、発散的思考とAIの関係を体系的に整理する。AI利用の設計に関わる研究者、教育者、ビジネスパーソンに向けて、エビデンスに基づいた実践的な視点を提供したい。

発散的思考とは何か：測定と理論の前提

「創造性＝独創性」ではない：有用性との二軸評価

創造性研究の最小限の共通基盤は、**「新しいだけでなく、有効であること」**という定義にある（Runco & Jaeger 2012）。この点は、AI支援の評価において特に重要だ。生成AIは独創性の指標（意味的距離や珍しさ）では高い得点を示すことがあるが、実現可能性や適切性を欠く可能性も同時に存在する。したがって、AIが「創造性を高めた」と単純に結論するためには、独創性と有用性を別軸で測る二軸評価が不可欠である。

発散的思考は「創造的潜在能力」の代理指標

発散的思考（Divergent Thinking, DT）とは、複数の多様な解を生成する能力のことで、流暢性・柔軟性・独創性・精緻性という下位指標で測定される。重要なのは、DTは現実の創造的達成そのものではなく、創造的潜在能力の代理指標であるという点だ。DTと創造的達成の相関は中程度であり、長期予測妥当性も限定的である（Runco & Acar 2012）。

つまり、「AI支援でDT得点が上がった」という結果が出たとしても、それが現実の創造的成果の向上を意味するとは限らない。どの下位指標が変化したのか、どの文脈での測定かを分解して読む姿勢が必要だ。

DTの成績は「いつ・どう指示するか」で変わる

DTの成績は、課題の本質だけでなく、教示・時間・例示・評価タイミングに大きく依存する。研究によれば、「創造的であれ」「質も重視せよ」と明示する指示は成績を上げ、時間制約を緩めると有意に伸びる。また、例示の提示タイミングも決定的で、早期に与えると固定化を引き起こしやすく、遅めに与えると流暢性・柔軟性・独創性を後押しする可能性がある（Acar et al. 2020）。

ここに、AI支援との重大な接点がある。AI出力は、現代版の「高品質な例示」として機能する。したがって、AI導入の最重要設計変数は、「AIに何を言わせるか」だけでなく、**「いつ見せるか」「何案見せるか」「見せた後に評価を急がせるか」**にある。

メタ分析が示す全体像：AIは万能でも敵でもない

「AIは人間より創造的か」という問いの限界

2025年のメタ分析（28研究・8,214名統合）は、この問いに対して明確な答えを出している。AI単独と人間単独の創造的パフォーマンスの差は統計的に有意でなく、一方で人間＋AI協働は人間単独よりわずかに高い創造性を示す。しかし同時に、アイデア多様性は大きく低下するという結果が報告されている。

これは、「AIは創造性を高めるか否か」という二項対立の問い自体が不適切であることを示唆している。問うべきは、どの条件でAIが独創性を促進し、どの条件で発散性と多様性を阻害するかである。

個人の「平均点」と集団の「多様性」のトレードオフ

Nature Human Behaviour に掲載された実験研究は、ChatGPT利用が個々のアイデアの創造性評価を引き上げる可能性を示した。しかしその後の複数の研究は、AI支援がアイデア系列の幅を狭め、モデル間でも似た発想に収束しやすいことを報告している。

さらに重要なのは、この均質化傾向が特定のモデルだけの問題ではないという点だ。PNAS Nexus（2026）の研究では、22種類のLLM全体で同様の均質化傾向が観察されている。つまり、AIを変えれば多様性が戻るという単純な解決策は期待できない。

メタ分析の結論を端的に表現すれば、**「AIは平均の質を押し上げるが、分布の幅を縮める」**ということになる。現実のイノベーションでは「平均点の高い似た案」より「ばらつきの大きい案集合」の方が選抜価値を持つ場面も多く、この多様性の損失は実務上の深刻なリスクになりうる。

促進条件：AIが発散的思考を高める設計

遅延導入：独自発想の後にAIを使う

最も強力な促進条件の一つが、AIの導入タイミングを遅らせることだ。発想の最初からAIに頼るのではなく、独自のアイデアを一定数出した後にAI出力を参照する設計が、独創性・柔軟性・集団多様性を高める可能性がある。

Qinらの研究は、LLMを最初から使うと独自アイデア数が減り、創造的自己効力感と自己帰属が下がることを示した。逆に、DT研究における「例示の遅延提示が有利」という知見と組み合わせると、早期のAI提示が探索空間をアンカーし、遅延提示が刺激として機能するというメカニズムが見えてくる。

共創役割の設計：編集者ではなく共創者として

Mcguireらの詩作研究は、AIが生成した文章を人間が編集するだけの役割設計では創造性が低下するが、共創者として位置づける設計に変えると創造性の不利益が消え、創造的自己効力感が媒介すると示した。

「AIの出力を直す」という役割は、人間を受動的な編集者に固定し、所有感と自律性を損なう。一方、「AIと一緒にゼロから考える」という共創フレームは、同じAI支援であっても心理的に全く異なる体験を生み出す。ツールの機能を変えなくても、教示文やUIラベルで役割認識を変えるだけで効果が異なる可能性があり、設計コストが低い介入として注目される。

コーチング型フィードバック：答えより問いを返す

Kumarらの大規模実験では、AIが直接的な解答案を提示するより、問い返しや発想の観点を示すコーチング型フィードバックの方が、支援後の無支援課題における独立思考能力を維持しやすい可能性が示されている。

短期の流暢性（出力数）では直接解答型が有利に見えることがある。しかし重要なのは、AI支援を離れた後に自分で考え続けられるかどうかだ。特に教育・研究・人材育成の文脈では、「支援中のパフォーマンス」より「支援後の独立思考能力」の方が本質的な目標になる。

出力多様性の設定：最適点は「中程度以上」

モデルの温度やサンプリング多様性を上げると新規性は増えやすいが、過度に高い設定では有用性や一貫性が低下する。現時点での仮説では、中程度以上の多様性設定に最適点があると考えられる。ただし、この最適値はモデル固有の特性に依存するため、一般化には注意が必要だ。また、PNAS Nexusが示すように、「創造性促進プロンプト」を加えても均質化が完全には消えない点も念頭に置く必要がある。

阻害条件：AIが発散的思考を妨げるメカニズム

早期提示と固定化

前述の通り、AIを最初に提示することで、人間の思考が無意識のうちにAIの出力にアンカーされる可能性がある。これは「固定化効果」と呼ばれ、その後の発想の幅を制約する。一つの「よくできたAI案」を見せられた状態でアイデアを出そうとすると、探索は自然とその周辺に収束しやすくなる。

社会的比較とAIを基準として意識させること

AIの出力を「高得点例」や「優秀な参考例」として明示的に提示する条件は、人間の所有感・自己帰属・探索の幅を損なう可能性がある。電子ブレインストーミング研究でも、社会的比較が評価懸念を高め、創造的表現を抑制することが報告されている。AIを「基準として意識させる」設計は、意図せず創造的自己効力感を損ないうる。

同時評価と認知負荷

発散フェーズでアイデアを生成しながら同時に評価する設計は、探索の早期収束と認知負荷の増大を引き起こしやすい。研究によれば、認知負荷を人工的に高めるとDTの量と多様性が下がり、実際のhuman–AIブレインストーミングでも、生成からキュレーションへの努力シフトが起きることが報告されている。

発散と収束を時間的に分離し、生成フェーズでは評価を保留させる設計が、探索の幅を保つために有効だと考えられる。

長期的な依存リスク：無支援転移の問題

Kumarらの研究が指摘する最も深刻な問題は、AI支援中はパフォーマンスが上がっても、その後の無支援課題で独立的な創造パフォーマンスが下がる可能性だ。これは、AIへの依存が深まるほど自分でゼロから考える力が衰えるというリスクを示唆している。

教育・研究・R&Dの観点では、「支援中のパフォーマンス」を最大化するだけでなく、支援後に独立して考え続けられる能力が保たれるかどうかを評価する視点が不可欠だ。

研究・実務設計への示唆

評価指標を多層化する

AI支援の効果を評価する際、個人レベルの創造性得点だけを見ることは不十分だ。研究設計としては、個人レベルの独創性×有用性の複合指標と集団レベルの意味的分散（多様性）の二本柱を主要アウトカムに置くことが推奨される。加えて、AIなし条件での無支援転移課題を組み込むことで、長期的な能力変化を捉えることができる。

行動ログの活用も重要だ。AIへのプロンプト送信回数、閲覧時間、受容率、編集距離、コピーペースト率などは、認知負荷や固定化の行動指標として機能する。創造性の自己報告や成果物の評価だけでなく、プロセスの観察がAI支援研究の質を高める。

日本語・多言語環境での留意点

多くのLLM創造性研究は英語中心であり、意味的距離指標やLLM自動採点の性能も英語データに偏っている。日本語で実験を行う場合、人評定を主、NLP指標を補助に置いた設計が安全だ。Kernらの研究では、日本語AUTでGPT-4を用いてnovelty・feasibility・valueを同時評価する実装が試され、「複数回答をまとめて評価」「先に説明させてから評定」するプロンプト設計が精度とコスト効率の両面で有利と報告されている。

まとめ：問うべきは「AIを使うか否か」ではない

生成AIと発散的思考の関係を整理すると、次の点が鮮明になる。AIは個人レベルの平均的な創造性評価をやや押し上げる可能性がある一方、集団レベルのアイデア多様性を損ないやすい。この傾向は特定のモデルに限らず、多数のLLMに共通して観察されている。

重要なのは、この結果が「AIは使わない方がよい」を意味しないという点だ。促進条件が明確に存在する。遅延導入、共創役割、コーチング型フィードバック、適切な多様性設定、評価の分離——これらの設計変数を意識的に操作することで、AIが発散的思考に与えるネガティブな影響を緩和できる可能性がある。

研究・教育・業務設計において、今後の問いを立て直すならこうなる。**「AIを使うか否か」ではなく、「どの条件でAIを導入すれば、多様性を損なわずに独創性を高められるか」**を実験的に問うことが、次のステップだ。

精神医学とAIのハルシネーションを記号論で比較する――「指示対象なき記号生成」という統一的視点

流動的知識の信頼性をどう担保するか——生成AI・リアルタイム統計・協調編集に共通する検証フレームワーク