AIが考えを示すとき、それは本当に機能しているのか?段階別評価により、最前線の言語モデルがしばしば自らの推論を迂回していることが判明
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多くの最前線の言語モデルにおける段階的な「根拠の提示(show your work)」のための説明は、しばしば飾りであると主張している。なぜなら、個々の推論文を削除しても最終回答が変わらないことが多いためである。
- 「忠実度(faithfulness)」を測定するために、推論の1ステップずつを取り除いて評価する段階別評価手法を導入する。この手法はAPIアクセスのみで実行でき、モデルとタスクごとにおおよそ1〜2ドル程度のコストで済む。
- 感情分析、数学、トピック分類、医療QAの4分野で、10の最前線モデルをテストしたところ、ほとんどのモデルで、最終回答が任意の1ステップに依存するのは17%未満であった。これは、事後的な物語生成が一般的であることを示している。
- 本研究は、忠実度がモデルおよびタスクに強く依存することを見出した。特定のタスクではより「真に」ステップ依存が見られるモデルが数個ある一方で、それでも他のタスクではなお「ショートカット」してしまう。
- 追加分析は、「出力の硬直性(output rigidity)」や、チェーン・オブ・ソートにおける注意パターンのメカニズム的な違いを示唆し、規模(スケール)だけでなく訓練目的が、推論が本当に使われているかどうかを決めるのだという結論を裏づけている。
