計算アラインド・トレーニング:テスト時推論を最適化する

arXiv cs.LG / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、SFTやRLのような従来のポストトレーニングが各サンプルの尤度をベース方策の下で最適化する一方で、テスト時には集約やフィルタリングされた出力を用いるため目的がずれる可能性を指摘している。
  • 「Compute Aligned Training」は、推論戦略をベース方策に適用されるオペレーターとして捉え、推論時の戦略と整合するように学習目的を再定式化する手法として提案されている。
  • 具体的には、特定のテスト時戦略を適用したときに性能が最大化されることを狙う新しい損失関数を導出している。
  • SFTおよびRLに対してこれらの損失関数を一般的なテスト時戦略へ適用し、標準的な学習よりもテスト時のスケーリングが大幅に改善するという実験的証拠を示している。

Abstract

テスト時の計算量を拡張することは、大規模言語モデル(LLM)の性能を高めるための強力な仕組みとして注目されてきました。しかし、標準的な事後学習の枠組みである教師あり微調整(SFT)や強化学習(RL)は、基となる方策のもとで個々のサンプルの尤度を最適化するため、集約された、またはフィルタリングされた出力に依存するテスト時の手続きとの間に不整合が生じます。本研究では、学習目標をテスト時の戦略に整合させる「計算整合学習(Compute Aligned Training)」を提案します。推論戦略を基となる方策に対する演算子として概念化することで、当該戦略を適用した際に性能を最大化する新しい損失関数を導出します。さらに、このような損失関数を、一般的なテスト時戦略に対してSFTおよびRLで具体化します。最後に、本学習手法が標準的な学習に比べてテスト時のスケーリングを大幅に改善するという経験的な証拠を提示します。