TEMPO:大規模推論モデルに対するスケーリング可能なテスト時トレーニング
arXiv cs.LG / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論モデルにおけるテスト時トレーニング(TTT)を検討し、推論中に政策モデルが更新されることで自己生成報酬の信号がドリフトし、その結果既存手法がすぐに頭打ちになることを示しています。
- TEMPOは、ラベルなしのテスト問題で政策を改善する工程と、ラベル付きデータで批評家(critic)を定期的に再校正する工程を交互に行う枠組みです。
- 交互手順は期待値最大化(EM)アルゴリズムで形式化でき、先行手法は重要な再校正ステップを省いた不完全な派生として解釈できると著者らは述べています。
- criticの再校正を復活させることでエビデンス下限(ELBO)が改善され、追加のテスト時計算量があっても継続的な向上が可能になります。
- 複数のモデル系統と推論タスクで、精度の大幅な向上(例:OLMO3-7BのAIME 2024で33.0%→51.1%、Qwen3-14Bで42.3%→65.8%)と高い出力多様性の維持が報告されています。



