計算アラインド・トレーニング:テスト時推論を最適化する
arXiv cs.LG / 2026/4/29
📰 ニュースModels & Research
要点
- 本論文は、SFTやRLのような従来のポストトレーニングが各サンプルの尤度をベース方策の下で最適化する一方で、テスト時には集約やフィルタリングされた出力を用いるため目的がずれる可能性を指摘している。
- 「Compute Aligned Training」は、推論戦略をベース方策に適用されるオペレーターとして捉え、推論時の戦略と整合するように学習目的を再定式化する手法として提案されている。
- 具体的には、特定のテスト時戦略を適用したときに性能が最大化されることを狙う新しい損失関数を導出している。
- SFTおよびRLに対してこれらの損失関数を一般的なテスト時戦略へ適用し、標準的な学習よりもテスト時のスケーリングが大幅に改善するという実験的証拠を示している。


