LLM推論におけるダイナミックな棄却（abstention）のための原則的フレームワーク：いつやめるべきかを知る

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMのチェーン・オブ・ソート推論で不正確な長文回答を生成して計算資源を浪費する問題に対し、「abstention（棄却）」＝誤りの可能性が高い出力を差し控える手法を改善することを扱う。
既存研究では主に生成の前後で棄却を決めるが、本研究は推論があまり見込みのないと判断した時点で、トークンごとに生成を途中で打ち切る「ダイナミックなmid-generation abstention」に焦点を当てる。
著者らは、棄却を正則化付き強化学習（RL）における明示的なアクションとしてモデル化し、棄却ルールに関する原則的な理論的枠組みを提示する。
推定される価値関数（value function）が報酬閾値を下回ったら棄却する、という方針が一般条件下で自然なベースラインよりも厳密に優位であることを示す。
数学推論タスクおよび毒性回避タスクでの実験により、価値関数の効率的近似を用いることで理論と整合し、既存手法より高い選択的精度が得られることを実証する。

要旨: チェーン・オブ・ソート（思考の連鎖）推論を用いる大規模言語モデル（LLM）は、長く不正確な応答を生成することで、しばしば多大な計算資源を無駄にします。棄権（abstention）は、正しくない可能性が高い出力を差し控えることで、この問題を緩和できます。多くの棄権手法は、生成の前または後に出力を差し控えるかどうかを決めますが、動的な生成途中での棄権（dynamic mid-generation abstention）は、各トークン位置において見込みのない推論トレースを早期に打ち切ることを考慮します。先行研究ではこの考えの経験的なバリエーションが検討されてきましたが、棄権ルールに対する原理的な指針は依然として欠けています。本研究では、正則化された強化学習の枠組みにおいて、棄権を明示的な行動としてモデル化し、LLMに対する動的棄権の形式的な分析を提示します。棄権報酬パラメータが、計算量と情報のトレードオフを制御します。価値関数がこの報酬を下回る場合に棄権することは、一般的な条件のもとで自然なベースラインよりも厳密に優れていることを示します。さらに、価値関数を近似するための、原理的で効率的な手法を導出します。数学的推論および毒性回避タスクに関する実験結果は、本理論を支持し、既存手法よりも選択的な精度が向上することを示します。