概要: 大規模推論言語モデル(LRLMs)は、長い Chain-of-Thought 推論(CoT)を活用することで複雑なタスクにおいて顕著な能力を示します。
しかし、過剰思考に陥りやすく、これにより冗長な推論ステップが生成され、性能と効率の両方を低下させます。
最近、過剰思考を緩和するために、推論を動的かつ適応的に終了する早期終了戦略が提案されています。
しかし、現在の早期終了法は、代理モデルに依存して追加の訓練オーバーヘッドを導入するか、推論と検証用回答の生成の間で内容を頻繁に切り替えることにより推論スループットを制限します。
さらに、多くの早期終了法は過度の切り捨てのためにLRLMの性能を損ないます。
私たちの洞察は次の観察に基づきます。過剰思考はしばしばLRLMを正しい推論経路から逸脱させることが多く、これは高エントロピーの遷移トークンを伴うことが頻繁です。
これを踏まえ、元の推論プロセスと深く結合した早期終了法を提案します。
これは、経路逸脱指標を、高エントロピー遷移トークンの頻繁な出現を検知・終了する専用モニタリング指標として活用し、過剰思考の軌跡を動的に検知・終了します。
我々は異なるタイプとスケールのLRLMを用いた複数のベンチマークで実験を行い、結果は既存の早期終了法と比較して、通常のCoTに対して最大の性能向上をもたらすことを示しています。
大規模推論言語モデルの過度な思考を軽減するための推論経路偏差モニタリング
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長い Chain-of-Thought 推論過程における大規模推論言語モデルの過度な思考が冗長なステップを生み出し、性能と効率を低下させる原因であると指摘する。
- 推論経路偏差指標を用いて高エントロピーの遷移トークンを検出し、過度な思考を動的に終了させるために、推論プロセスと深く統合された早期退出法を提案する。
- このアプローチは代理モデルに依存せず、推論の軌道に打ち切り決定を結びつけることで、追加のトレーニング負荷や過度な内容の切替を回避する。
- 複数のベンチマークとモデルスケールにまたがる実験は、本手法が従来の CoT に対して、既存の早期退出法と比較して最大の性能改善を達成することを示している。


