LLMが手順に従うのをやめるとき:言語モデルにおける手続き実行の診断研究

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、推論ベンチマークでの高い成績や最終回答の正確さが、プロンプトで指示された手順をLLMが忠実に実行しているかどうかを必ずしも示さないと主張しています。
  • モデルに段階的な算術アルゴリズムと2つの数値入力を与え、アルゴリズム長と中間変数の参照(look-back依存)を複雑化させつつ最終計算値を返させる、制御された診断ベンチマークを提案しています。
  • 14モデル・55データセットの結果では、手順が5ステップから95ステップへ長くなるにつれて、初回回答の精度が61%から20%へ大きく低下しました。
  • 生成レベルの分析では、回答の欠落や早すぎる回答、最初の誤り後の自己修正、実行不足のトレース、存在しない追加ステップの幻覚などが頻出する失敗パターンとして挙げられています。
  • 論文は、「推論できるように見える」ことが、特に長く依存関係の多い手順において忠実な手続き実行の弱さを覆い隠す可能性があると結論づけています。