拡張推論型大規模言語モデルにおけるプロンプト戦略の温度依存的性能

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡張推論LLMにおいてサンプリング温度とプロンプト戦略がどのように相互作用するかを評価し、推論の連鎖（chain-of-thought）とゼロショット・プロンプトに焦点を当てる。
Grok-4.1を用い、39件のAMO-Bench（IMOレベル）の数学問題に対して拡張推論を行うと、ゼロショット・プロンプトは中程度の温度で最大の性能を示す（T=0.4およびT=0.7でそれぞれ59%の精度）。
一方、推論の連鎖（chain-of-thought）プロンプトは、温度の両極端（T=0.0およびT=1.0）で最良の結果を得る。
本研究では、拡張推論の優位性が温度とともに大きく拡大することが分かり、T=0.0での「速度/精度の6倍」からT=1.0での「14.3倍」へと上昇する。
全体として、推論タスクでは温度をプロンプト戦略と同時に調整すべきであり、理由なくT=0に固定するべきではない、という主張になる。

概要: 拡張推論モデルは、複雑な問題解決のための明示的なテスト時計算を可能にすることで、大規模言語モデル（LLM）能力における変革的な転換を体現している。しかし、これらのシステムに対するサンプリング温度とプロンプト戦略の最適な構成は、いまだ十分に調査されていない。われわれは、Grokk-4.1に拡張推論を用い、AMO-Benchの39の数学問題（国際数学オリンピック級の難度を持つベンチマーク）を対象に、4つの温度設定（0.0、0.4、0.7、1.0）で、思考の連鎖（chain-of-thought）とゼロショット・プロンプトの双方を体系的に評価する。その結果、ゼロショット・プロンプトは中程度の温度で最高性能を達成し、T=0.4およびT=0.7で59%の精度に到達する一方、思考の連鎖プロンプトは温度の両極端で最も良い性能を示す。とりわけ注目すべき点として、拡張推論の有益性はT=0.0で6倍からT=1.0で14.3倍へと増大する。これらの結果は、温度はプロンプト戦略と共同で最適化されるべきであり、推論タスクにT=0を用いるという一般的な実務を覆すことを示唆している。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

拡張推論型大規模言語モデルにおけるプロンプト戦略の温度依存的性能

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化