拡張推論型大規模言語モデルにおけるプロンプト戦略の温度依存的性能

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡張推論LLMにおいてサンプリング温度とプロンプト戦略がどのように相互作用するかを評価し、推論の連鎖(chain-of-thought)とゼロショット・プロンプトに焦点を当てる。
  • Grok-4.1を用い、39件のAMO-Bench(IMOレベル)の数学問題に対して拡張推論を行うと、ゼロショット・プロンプトは中程度の温度で最大の性能を示す(T=0.4およびT=0.7でそれぞれ59%の精度)。
  • 一方、推論の連鎖(chain-of-thought)プロンプトは、温度の両極端(T=0.0およびT=1.0)で最良の結果を得る。
  • 本研究では、拡張推論の優位性が温度とともに大きく拡大することが分かり、T=0.0での「速度/精度の6倍」からT=1.0での「14.3倍」へと上昇する。
  • 全体として、推論タスクでは温度をプロンプト戦略と同時に調整すべきであり、理由なくT=0に固定するべきではない、という主張になる。

概要: 拡張推論モデルは、複雑な問題解決のための明示的なテスト時計算を可能にすることで、大規模言語モデル(LLM)能力における変革的な転換を体現している。しかし、これらのシステムに対するサンプリング温度とプロンプト戦略の最適な構成は、いまだ十分に調査されていない。われわれは、Grokk-4.1に拡張推論を用い、AMO-Benchの39の数学問題(国際数学オリンピック級の難度を持つベンチマーク)を対象に、4つの温度設定(0.0、0.4、0.7、1.0)で、思考の連鎖(chain-of-thought)とゼロショット・プロンプトの双方を体系的に評価する。その結果、ゼロショット・プロンプトは中程度の温度で最高性能を達成し、T=0.4およびT=0.7で59%の精度に到達する一方、思考の連鎖プロンプトは温度の両極端で最も良い性能を示す。とりわけ注目すべき点として、拡張推論の有益性はT=0.0で6倍からT=1.0で14.3倍へと増大する。これらの結果は、温度はプロンプト戦略と共同で最適化されるべきであり、推論タスクにT=0を用いるという一般的な実務を覆すことを示唆している。