TEMPO:大規模推論モデルに対するスケーリング可能なテスト時トレーニング

arXiv cs.LG / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模推論モデルにおけるテスト時トレーニング(TTT)を検討し、推論中に政策モデルが更新されることで自己生成報酬の信号がドリフトし、その結果既存手法がすぐに頭打ちになることを示しています。
  • TEMPOは、ラベルなしのテスト問題で政策を改善する工程と、ラベル付きデータで批評家(critic)を定期的に再校正する工程を交互に行う枠組みです。
  • 交互手順は期待値最大化(EM)アルゴリズムで形式化でき、先行手法は重要な再校正ステップを省いた不完全な派生として解釈できると著者らは述べています。
  • criticの再校正を復活させることでエビデンス下限(ELBO)が改善され、追加のテスト時計算量があっても継続的な向上が可能になります。
  • 複数のモデル系統と推論タスクで、精度の大幅な向上(例:OLMO3-7BのAIME 2024で33.0%→51.1%、Qwen3-14Bで42.3%→65.8%)と高い出力多様性の維持が報告されています。

Abstract

テスト時学習(TTT)は、推論時にラベルのないテストインスタンス上でモデルのパラメータを適応させ、オフライン学習の到達範囲を継続的に拡張します。初期には効果が得られるものの、言語能力を持つ大規模モデル(LRMs)に対する既存のTTT手法はすぐに頭打ちになり、追加のテスト時計算から利益を得られません。外部のキャリブレーションなしでは、自己生成される報酬信号は方策モデルが進化するにつれてますますドリフトし、その結果、性能のプラトーと多様性の崩壊の両方が起こります。我々はTEMPOを提案します。TEMPOは、ラベルのない質問に対する方策の改良と、ラベル付きデータセットに基づく周期的なクリティック(critic)の再キャリブレーションを交互に行うTTTフレームワークです。Expectation-Maximization(EM)アルゴリズムによってこの交互手順を形式化することで、先行手法が、重要な再キャリブレーション手順を省いた不完全な変種として解釈できることを明らかにします。この手順を再導入することで、証拠下限(ELBO)がより緊密になり、持続的な改善が可能になります。多様なモデルファミリ(Qwen3およびOLMO3)と推論タスクにわたって、TEMPOはAIME 2024でOLMO3-7Bを33.0%から51.1%へ、またQwen3-14Bを42.3%から65.8%へと改善し、高い多様性を維持しながら達成します。