大規模言語モデルは早く決めて、後で説明する

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この研究は、大規模言語モデルの最終回答がチェーン・オブ・ソート推論の途中ですでに決まっているのかを検証し、その後に続く推論が「意思決定後の説明」となって正答性を上げずにコストとレイテンシを増やしていないかを調べています。
forced answer completion を用いて Qwen3-4B を複数データセットで評価した結果、最終的な回答の予測は 32% のクエリでしか変化せず、最終回答が切り替わった後は平均で 760 追加の推論トークンを生成していることが分かりました。
この結果は、チェーン・オブ・ソート推論の相当部分に冗長性があることを示しており、後続の推論が最終回答を変えるのにほとんど寄与していない可能性を示唆します。
誤差を抑えつつ生成を打ち切るために、回答が安定した時点で停止する早期終了戦略（プローブベース停止など）を提案し、推論トークンをクエリあたり約 500 削減できる一方で、精度低下は約 2% にとどまると報告しています。
全体として、冗長な推論を止めることで遅延と推論コストを削減しつつ、性能を概ね維持できる推論時の工夫が重要であることを動機づける内容です。