適応的思考:大規模言語モデルは潜在空間で“いつ”考えるべきかを知っている

Apple Machine Learning Journal / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模言語モデルにおける「テスト時の思考」(推論時に追加する計算)を、性能を高めつつ計算を無駄にしない形でどのように配分するかを扱います。
  • 思考バジェットを増やすと推論時の性能が滑らかに向上する一方で、モデルの能力・問いの複雑さ・最適なバジェット配分の関係は、計算効率に最適化する上で十分に理解されていないと指摘します。
  • 提案では、自身の複数の推論経路の一致(self-consistency)を、「追加の思考が本当に必要か」を示す代理指標として用います。
  • その上で、潜在空間での思考を起動すべきタイミングを特定し、それに応じて推論の量・種類を適応させます。
  • 全体として、「いつ考えるか」を決めることで、常に大きな推論コストを払うのではない効率的なLLM推論を目指します。
Recent advances in large language models (LLMs) test-time computing have introduced the capability to perform intermediate chain-of-thought (CoT) reasoning (thinking) before generating answers. While increasing the thinking budget yields smooth performance improvements at inference time, the relationship between LLM capability, query complexity, and optimal budget allocation remains poorly understood for achieving compute-optimal inference. To address this challenge, we utilize self-consistency, the agreement among multiple reasoning paths, as a proxy for thinking necessity. We first identify…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →