要旨: 大規模推論モデルは、複雑な問題を解くために長い連鎖的な思考(chain-of-thought)の生成に依存していますが、推論を長く続けると計算コストが大きくなりがちで、さらに考えすぎによって性能が低下することさえあります。重要な課題は、モデルがいつ推論を停止して最終回答を出すべきかを判断することです。本研究では、推論中の中間回答の確信度(confidence)を調査し、2つの特徴的な挙動を観察します。すなわち、正しい推論の軌跡はしばしば早い段階で高い確信度の回答に到達する一方で、誤ったロールアウトは長くて生産性のない推論の痕跡を生成する傾向があり、確信度の動態が信頼できないことが多いです。これらの観察に動機づけられ、本研究ではCoDE-Stop(Confidence Dynamics Early Stop)という、推論をいつ終了するかを中間回答の確信度の動態を活用して決定する早期停止手法を提案します。本手法は追加の学習を必要とせず、既存のモデルへ容易に統合できます。複数のモデルにわたって、多様な推論および科学ベンチマークでCoDE-Stopを評価します。従来の早期停止手法と比べて、より好ましい精度-計算量のトレードオフを達成し、通常の長さの推論(フルレングス推論)と比較して総トークン使用量を25〜50%削減します。さらに本研究では、推論中の確信度の動態に関する分析も提供し、正しい軌跡と誤った軌跡のいずれにおいても確信度がどのように変化するかについての洞察を与えます。
Confidence Dynamics による大規模推論モデルのための早期終了(Early Stopping)
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長い chain-of-thought 推論の過程における中間回答の確信度がどのように変化するかを調査し、正しいトラジェクトリではしばしば高い確信度の回答に早期に到達する一方で、誤ったロールアウトでは信頼できる確信度のダイナミクスが示されず、生産性のない推論が長引くことを見出す。
- Confidence Dynamics を用いて推論をいつ停止して回答を出力するかを判断する、早期終了手法 CoDE-Stop(Confidence Dynamics Early Stop)を提案する。
- CoDE-Stop は追加の学習を必要とせず、再学習なしで既存の推論モデルに統合できる。
- 複数のモデルおよび推論/サイエンスのベンチマークでの実験により、従来の早期終了アプローチと比べて精度–計算量のトレードオフが改善し、完全長の推論に比べて総トークン使用量を 25–50% 削減する。
- 本研究は、正しい/誤った推論トラジェクトリ間での確信度ダイナミクスに関する解析的洞察も提示し、本手法が機能する理由を説明する。




