LLMの経済的因果推論におけるイデオロギー的バイアス

arXiv cs.CL / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 研究では、大規模言語モデル(LLM)が経済的因果効果の方向性を推定する際に、イデオロギー的に偏った判断をしているかを検証します。
  • EconCausalベンチマークを拡張し、「イデオロギーが対立する」ケースを追加します。これは、親政府(介入志向)と親市場(市場志向)が因果の符号を食い違う形で予測する事例です。
  • 20の最先端LLMを10,490件の因果トリプレットで評価した結果、イデオロギーが対立する項目は非対立項目よりも一貫して難しいことが示されます。
  • 20モデル中18モデルでは、実証された因果の符号が介入志向の期待と一致する場合に精度が高くなり、誤りがあるときは介入志向の方向により偏って外れます。
  • ワンショットのインコンテキスト・プロンプトでは、この方向性の偏りは解消されず、高リスクな経済・政策領域での方向に応じた評価の必要性が示唆されます。

要旨: 大規模言語モデル(LLM)は、経済的因果効果について推論する際に、体系的なイデオロギー的バイアスを示すのでしょうか?LLMは、政策分析や経済報道においてますます利用されるようになっており、方向性として正しい因果判断が不可欠な状況に直接関わるこの問いには、実用上の重要な意義があります。私たちは、EconCausalベンチマークをイデオロギーが争点となる事例(介入志向型(親政府)と市場志向型(親市場)の見方が、因果の符号(因果の方向)が食い違うことを予測するケース)を拡張することで、体系的な評価を提示します。トップクラスの経済学およびファイナンス分野の学術誌から導出した、計10,490の因果トリプレット(介入—アウトカムの組で、効果の方向が経験的に検証済み)から、1,056件のイデオロギーが争点となる事例を特定し、経験的に支持された因果の方向を予測する能力について、最先端のLLM 20モデルを評価します。その結果、イデオロギーが争点となる項目は、争点とならない項目よりも一貫して難しいこと、さらに20モデル中18モデルにおいて、経験的に検証された因果の符号が介入志向型の期待と一致する場合の精度が、市場志向型の期待と一致する場合よりも体系的に高いことが分かりました。加えて、モデルが誤るときの誤予測は、介入志向型へ過度に偏る傾向があり、この方向性の偏りはワンショットのインコンテキスト・プロンプトによっては解消されません。これらの結果は、LLMがイデオロギーが争点となる経済的な問いに対して単に精度が低いだけでなく、どちらのイデオロギー方向に対しても体系的に信頼性が低くなることを示しており、高リスクな経済・政策の場面においては、方向を意識した評価が必要であることを強調しています。