Thinking Fast, Thinking Wrong:直感性が政策評価におけるLLMの反実仮想推論を調整する

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、経験的結果が一般的な事前知識に対して「自明」「曖昧」「反直感的」に分類される、査読済みの経済学/社会科学の政策評価事例40件からなるベンチマークを導入する。
  • 4つの最先端LLMを用いた実験により、著者らは、思考の連鎖(Chain-of-Thought)プロンプトが「自明」なケースでは性能を大きく向上させる一方で、「反直感的」なケースではほとんど効果がないことを見いだす(OR = 0.053, p < 0.001)。これにより「CoTパラドックス」が示される。
  • 本研究では、目標とする帰結の「直感性」が精度の主要な要因であることが分かり、モデル選択やプロンプト戦略のいずれよりも大きな分散を説明する(ICC = 0.537)。
  • 「知識と推論の解離(knowledge-reasoning dissociation)」も報告される:引用/馴染み(familiarity)のシグナルは精度と相関せず(p = 0.53)、LLMは関連する事実を知っていても、証拠が直感と食い違うときに推論することが難しい可能性が示唆される。
  • 結果は二重過程理論(System 1 vs. System 2)により解釈される。すなわち、現在のLLMにおける「遅い思考」は、政策評価における反実仮想推論の信頼性というより、むしろ遅い叙述(slow narration)を反映している可能性がある、という主張である。

要旨: 大規模言語モデル(LLM)は因果推論および反実仮想(カウンターファクチュアル)推論にますます用いられている一方で、実世界の政策評価における信頼性は十分に検討されていません。私たちは、経済学および社会科学から収集した40の実証的な政策評価ケースからなるベンチマークを構築します。各ケースは査読付きのエビデンスに基づき、直感性によって分類されます――すなわち、実証結果が(明白である)既知の常識的期待と整合しているか、(曖昧である)期待に対して不明確であるか、あるいは(反直感的である)期待と矛盾しているか、のいずれかです。私たちは、5つのプロンプト戦略にわたって4つの最先端LLMを評価し、2,400件の実験試行を行い、その結果を混合効果ロジスティック回帰で分析します。私たちの結果は、次の3つの主要な知見を明らかにします:(1)連鎖的思考(CoT)のパラドックス。CoTプロンプトは明白なケースでのパフォーマンスを劇的に向上させるものの、この利点は反直感的なケースではほぼ消失します(交互作用のOR = 0.053、p < 0.001);(2)支配的要因としての直感性。モデルの選択やプロンプト戦略よりも多くの分散を説明します(ICC = 0.537);(3)知識と推論の分離。引用に基づく馴染み(familiarity)は正確さと無関係です(p = 0.53)。これは、モデルが関連する知識を有しているものの、発見が直感に反する場合には、それを用いて推論することに失敗することを示唆しています。私たちはこれらの結果を、二重過程理論(システム1対システム2)の観点から提示し、現在のLLMの「遅い思考」はせいぜい「遅い発話」にすぎないのではないか――熟慮的推論の形式は作り出すが、その中身(実質)は伴っていないのだ――と論じます。