タスクレベルの自己回帰的推論によりKnow-Actギャップを架橋する

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが識別的プロンプトでは欠陥のある、あるいは不適切な入力を認識できる一方で、標準的な生成ではもっともらしい回答を生成してしまい、「know-act gap（知っているのに実行できないギャップ）」が生じると主張する。
誤った科学的問いを対象とする新しい大規模な学際ベンチマーク「FaultyScience」を導入し、know-actギャップが狭いQA/数学設定に限らず広く見られることを見出す。
著者らは、このギャップの原因を、トークンレベルの自己回帰がタスク選択（例：検証するか、答えるか）を内容生成と絡めてしまうことにより、モデルの識別的な知識が実際の行動に反映されない点にあると考察している。
これを架橋するために、識別的な検証と生成的な回答の分岐（意思決定）を明示的にモデル化するタスクレベル自己回帰フレームワーク「DeIllusionLLM」を提案する。
実験では、自己蒸留により1つのモデルバックボーンが識別判断と生成的推論を組み合わせられ、その結果、自然なプロンプト下での「誤りにもかかわらず答えてしまう」失敗を大幅に減らしつつ、全体としての推論性能を維持できることが報告される。