時間的推論の集約による効率的なテスト時スケーリング

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、TRACEという訓練不要のテスト時スケーリング手法を提案し、大規模言語モデルの推論における不要な「過剰な推論」を減らします。
  • 従来の早期終了が単一ステップの自信度シグナルに依存していたのに対し、TRACEは瞬間的な指標ではなく、複数ステップの証拠を時間的に集約して推論を打ち切ります。
  • TRACEは直近の推論ステップにわたって、答えの一貫性(予測された答えの持続)と自信度の軌跡(自信が時間とともにどう変化するか)の2つの相補的な信号を組み合わせます。
  • 複数の難しいベンチマークでの実験では、TRACEが推論トークン使用量を平均25–30%削減しつつ、精度はフルレングス推論に対して1–2%以内に維持できることが示されています。
  • TRACEは評価タスクにおいて既存の動的推論/早期終了手法よりも一貫して優れていると報告されており、より効率的な推論のための実用的なアプローチになり得ます。

概要: テスト時のスケーリングは大規模言語モデルの推論性能を向上させますが、多くの場合、トークン効率の悪い過剰な考え込みを引き起こします。具体的には、モデルが正しい答えを得るために必要以上に推論を続けてしまうという現象です。既存の動的な早期終了手法は、一般に単一ステップの信頼度(confidence)信号に依存していますが、複数ステップの状況において推論の収束(convergence)を検出するには、それらの信号は信頼できないことがよくあります。この制約を緩和するために、我々はTRACEを提案します。TRACEは、効率的なテスト時スケーリングのための学習不要(training-free)フレームワークであり、瞬間的な信号ではなく、多段(multi-step)のエビデンスを時間的に集約することで、推論をいつ終了すべきかを決定します。TRACEは、直近の複数の推論ステップにわたって2つの補完的な信号を集約することで、時間の経過に伴う推論の収束を検出します。具体的には、①答えの一貫性(answer consistency)により、予測された答えが持続していることを捉え、②信頼度の軌跡(confidence trajectory)によって、モデルの信頼度が時間とともにどのように変化するかをモデル化します。これら2つの要因の恩恵により、TRACEは推論プロセスが収束したかどうかを正確に判断できるため、推論を速やかに停止し、冗長な推論ステップを効果的に回避できます。複数の難しいベンチマークに対する大規模な実験の結果、TRACEは平均で推論トークン使用量を25〜30%削減しつつ、精度はフルレングスの推論に対して1〜2%以内に維持することができ、既存の動的推論手法を一貫して上回ることが示されています。