考えるほど悪化することもある:LLMの推論時計算量スケーリングにおける過剰推論
arXiv cs.AI / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのテスト時「推論」(長い思考の連鎖)を増やせば結果が単調に改善するという、よくある前提に異議を唱える。
- 高い計算予算において限界的なリターンが逓減することを示し、さらに「過剰推論」では、追加の推論がこれまで正しかった解答を放棄することと相関していることを明らかにする。
- 著者らは、最適な思考の長さは問題の難しさに依存することを示し、固定的/一律な計算配分は非効率であると示唆する。
- コストを考慮した評価フレームワークを用いて、適度な推論予算で打ち切れば、計算量を大幅に削減しつつ、同程度の精度を維持できることを見出す。
- 全体として、本研究はテスト時計算量スケーリングを「推論の長さを最大化する」問題ではなく、「最適な停止点を見つける」問題として捉え直す。



