Confidence Dynamics による大規模推論モデルのための早期終了（Early Stopping）

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長い chain-of-thought 推論の過程における中間回答の確信度がどのように変化するかを調査し、正しいトラジェクトリではしばしば高い確信度の回答に早期に到達する一方で、誤ったロールアウトでは信頼できる確信度のダイナミクスが示されず、生産性のない推論が長引くことを見出す。
Confidence Dynamics を用いて推論をいつ停止して回答を出力するかを判断する、早期終了手法 CoDE-Stop（Confidence Dynamics Early Stop）を提案する。
CoDE-Stop は追加の学習を必要とせず、再学習なしで既存の推論モデルに統合できる。
複数のモデルおよび推論／サイエンスのベンチマークでの実験により、従来の早期終了アプローチと比べて精度–計算量のトレードオフが改善し、完全長の推論に比べて総トークン使用量を 25–50% 削減する。
本研究は、正しい／誤った推論トラジェクトリ間での確信度ダイナミクスに関する解析的洞察も提示し、本手法が機能する理由を説明する。

要旨: 大規模推論モデルは、複雑な問題を解くために長い連鎖的な思考（chain-of-thought）の生成に依存していますが、推論を長く続けると計算コストが大きくなりがちで、さらに考えすぎによって性能が低下することさえあります。重要な課題は、モデルがいつ推論を停止して最終回答を出すべきかを判断することです。本研究では、推論中の中間回答の確信度（confidence）を調査し、2つの特徴的な挙動を観察します。すなわち、正しい推論の軌跡はしばしば早い段階で高い確信度の回答に到達する一方で、誤ったロールアウトは長くて生産性のない推論の痕跡を生成する傾向があり、確信度の動態が信頼できないことが多いです。これらの観察に動機づけられ、本研究ではCoDE-Stop（Confidence Dynamics Early Stop）という、推論をいつ終了するかを中間回答の確信度の動態を活用して決定する早期停止手法を提案します。本手法は追加の学習を必要とせず、既存のモデルへ容易に統合できます。複数のモデルにわたって、多様な推論および科学ベンチマークでCoDE-Stopを評価します。従来の早期停止手法と比べて、より好ましい精度-計算量のトレードオフを達成し、通常の長さの推論（フルレングス推論）と比較して総トークン使用量を25〜50%削減します。さらに本研究では、推論中の確信度の動態に関する分析も提供し、正しい軌跡と誤った軌跡のいずれにおいても確信度がどのように変化するかについての洞察を与えます。

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

この推測は、あながち的外れではないのでは？

Reddit r/LocalLLaMA

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

Dev.to

Confidence Dynamics による大規模推論モデルのための早期終了（Early Stopping）

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ