AI Navigate

Fuel Gauge: 大規模マルチモーダルモデルにおけるChain-of-Thoughtの長さを事前に推定する

arXiv cs.CV / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、隠れた「燃料」信号を抽出することで、大規模マルチモーダルモデルにおいてChain-of-Thoughtの長さを事前に予測する方法であるFuel Gaugeを紹介する。
  • LMMの提供時におけるメモリ断片化と効率性を改善するため、予測的KVキャッシュ割り当てを可能にし、CoT長を調整して過剰思考と過少思考のバランスを取る。
  • テキストのみ、画像-テキスト、および動画-テキストのベンチマークにわたる広範な実験は、CoT長予測誤差の減少とGPQA-Diamondベンチマークでのメモリ割り当て頻度を13.37倍削減することを示す。
  • 結果は、実世界のLMM展開に対する一般化可能性と実用的価値を示しており、資源使用と推論品質の双方で改善の可能性を示唆している。
要旨: 大規模マルチモーダルモデル(LMM)は多くのアプリケーションで事実上の標準となっている。しかし、これらのモデルは実行時に長く予測不能なChain-of-Thought(CoT)プロセスに依存しており、計算資源の非効率(メモリ断片化による)と不最適な精度(過剰思考と過少思考の結果)を招く。経験的には、CoTプロセスは特定の生成サンプルに依存せず、非常に単純な形をとることを観察する。これはCoT長が、推論プロセスを支える「燃料」の量を表す隠れパラメータに基づいて事前に推定できる可能性があると示唆する。この洞察に基づき、隠れ信号を抽出してCoT長を事前に予測する最初の方法としてFuel Gaugeを提案する。我々は、Fuel Gaugeの有用性を2つの下流タスクで示す。予測的KVキャッシュ割り当てはLMMサービングシステムのメモリ断片化に対処し、CoT長モジュレーションは過剰思考と過少思考を緩和する。テキストのみ、画像-テキスト、動画-テキストの質問応答ベンチマークにわたる広範な実験は、Fuel Gaugeの有効性、一般化可能性、実用的価値を示す。例えばGPQA-Diamondベンチマークでは、Fuel Gaugeは基準値と比較してCoT長予測誤差をほぼ半分以下に抑え、メモリ割り当て頻度を13.37倍削減する。