いつ投票し、いつ書き換えるか:テスト時スケーリングのための意見(出力)不一致ガイド戦略ルーティング

arXiv cs.AI / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模推論モデル(LRMs)が難しい数学的インスタンスで信頼性に欠ける点と、既存のテスト時スケーリングがしばしば計算量増加の割に伸びが鈍くなる問題を扱っています。
  • 出力の不一致が、インスタンスの難しさや予測の正しさと強く相関することを観察し、テスト時の戦略選択に有用な信号になると示します。
  • 著者らは、単一の戦略に対して一律に計算を増やすのではなく、入力ごとに異なるテスト時スケーリング戦略を動的に選ぶ「インスタンスレベルのルーティング」として定式化する学習不要(training-free)の枠組みを提案します。
  • 一致しているケースには軽量な解決、適度な不一致には多数決、強い曖昧さには書き換えに基づく再定式化を用います。
  • 7つの数学ベンチマークと3つのモデルでの実験では、従来手法に比べてサンプリングコストを抑えつつ精度が3%〜7%向上することを報告しています。