考えるほど悪化することもある:LLMの推論時計算量スケーリングにおける過剰推論

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのテスト時「推論」(長い思考の連鎖)を増やせば結果が単調に改善するという、よくある前提に異議を唱える。
  • 高い計算予算において限界的なリターンが逓減することを示し、さらに「過剰推論」では、追加の推論がこれまで正しかった解答を放棄することと相関していることを明らかにする。
  • 著者らは、最適な思考の長さは問題の難しさに依存することを示し、固定的/一律な計算配分は非効率であると示唆する。
  • コストを考慮した評価フレームワークを用いて、適度な推論予算で打ち切れば、計算量を大幅に削減しつつ、同程度の精度を維持できることを見出す。
  • 全体として、本研究はテスト時計算量スケーリングを「推論の長さを最大化する」問題ではなく、「最適な停止点を見つける」問題として捉え直す。

Abstract

長鎖の思考(chain of thought)を通じてテスト時の計算(compute)を拡張することにより、言語モデルの推論性能を向上させるための主要なパラダイムが広がってきました。しかし、既存の研究は暗黙のうちに、「より長く考えるほど常により良い結果が得られる」と仮定しています。この仮定は、ほとんど検証されていないままです。私たちは、計算予算が増加したときに、追加の推論トークンがもたらす限界効用がどのように変化するのかを体系的に調査します。その結果、高い予算では限界リターンが大幅に減少し、拡張された推論が以前に正しかった答えを捨てることに結びつく「過剰な思考(overthinking)」がモデルに見られることを見出しました。さらに、最適な思考の長さは問題の難しさによって変わることを示し、均一な計算配分が最適ではないことを示唆します。コストを考慮した評価フレームワークにより、中程度の予算で停止することで、計算量を大きく削減しつつ、同等の精度を維持できることが分かりました。