要旨: 大規模推論モデル(LRMs)は、Chain-of-Thought(CoT)推論を介して複雑な推論タスクで印象的な性能を発揮します。これにより、最終回答に到達する前に中間の思考トークンを生成できるようになります。しかし、LRMs はしばしば過度な思考に悩まされ、回答が早く生成された後も過剰な計算時間を費やします。先行研究は、推論をこの時点で打ち切ることでCoT出力を実質的に変化させずに大幅に短縮できる最適な推論長が存在することを特定しています。しかし、実用的なデータセットに対して最適なCoT長を決定することは、タスクとモデルに完全に依存するため高度に非自明です。本論文ではこれを正確に扱い、推論時に過剰な思考を緩和するためのLRMsの早期終了戦略であるTERMINATORを設計します。TERMINATORを支える中心的な考えは、LRMsの最終回答の最初の到着がしばしば予測可能であるということであり、これらの最初の回答位置を活用してTERMINATORを訓練する最適な推論長の新しいデータセットを作成します。このアプローチにより、TERMINATORは平均でCoT長を14%〜55%削減し、MATH-500、AIME 2025、HumanEval、GPQAの4つの難易度の高い実用データセット全体を対象とする一方で、現状の最先端手法を上回ります。
TERMINATOR: Chain-of-Thought推論における早期停止の最適退出点を学習する
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TERMINATORは、大規模推論モデル向けに、Chain-of-Thought(CoT)推論の長さを損なうことなく削減する早期退出戦略を導入する。
- この手法は、モデルの最終的な答えが実質的に予測可能になる最初のポイントを識別し、それを用いて最適な推論長のデータセットを訓練する。
- 4つのデータセット(MATH-500、AIME 2025、HumanEval、GPQA)において、TERMINATORはCoTの長さを14%–55%削減し、現状の最先端手法を上回る。
- 過度の思考を抑制することにより、回答が実質的に決定された後に推論に費やされる不要な計算時間を減らし、推論効率を向上させる。
