要約: ポストトレーニングのアライメントは、DPO、SimPO、KTO、GRPO、その他多数の競合アルゴリズムを生み出してきたが、実務家にはアルゴリズム選択を導くための統制された比較が不足している。私たちはOXRLを提示する。OXRLは同一のインフラストラクチャで51のポストトレーニングアルゴリズムを実装する統一フレームワークであり、初の大規模な apples-to-apples 評価を可能にする。私たちの研究は、4つのモデルスケール(0.5B--7B)、3つの評価ドメイン、および20変種のDPO分類(1.5Bで100回、各5シード)にまたがり、約240回のトレーニング実行をH100 GPU上で行った。3つの主要な発見が現れる。 (1) アルゴリズムのランキングはスケールに依存して不安定: 1.5B ではオンラインRL(SGRPO)が GSM8K で 58.0% ± 0.57 をトップ、7B では最悪の小規模手法(SimPO)が最高(85.8%)、LoRA正則化よりもモデルスケールによる完全なランキング反転である(2×2 因子実験によって確認)。 (2) ロス関数の改変は顕著な利得をもたらさない: 20個のDPO変種はいずれも Bonferroni 補正後に vanilla DPO を有意に上回らない; 唯一の有意な外れ値、SimPO は劣っている(-11.5 pp、p < 10^-4)。 (3) アルゴリズムのレバレージはタスク特異的: GSM8K の 19.3 pp の差は MATH(36×)で 0.54 pp、一般ドメインベンチマークで 0.47 pp(41×)に縮小し、アルゴリズムの選択は主にトレーニング分布内で重要であることを確認している。これらの知見は私たちに対するレバレージの階層を示す: モデルスケール(約50 pp) > 学習パラダイム(約10 pp) > オンライン対オフライン(約9 pp) > ロス関数(約1 pp)。私たちはすべてのコード、設定、および評価データを、継続的に更新されるコミュニティベンチマークとして公開します。
ポストトレーニングアルゴリズムは本当に異なるのか? モデルスケール別の統制研究がスケール依存のランキング反転を明らかにする
arXiv cs.AI / 2026/3/23
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はOXRLという統一フレームワークを提案する。OXRLは51種類のポストトレーニングアルゴリズムを実装し、8つのアルゴリズム、4つのモデルスケール(0.5B–7B)、および複数の評価ドメインにまたがる公平な比較評価を可能にする。
- アルゴリズムのランキングはスケール依存であることが明らかになり、オンラインRL(SGRPO)が1.5Bで首位に立つ一方、7BではSimPOがトップ手法となり、スケール駆動のランキング反転を示している。
- 損失関数の改変は、20種類のDPOバリアント全体でほとんど効果をもたらさない。唯一の顕著な外れ値はSimPOで、性能はむしろ低下する。
- アルゴリズムの活用はタスクに対して非常に特異的であり、GSM8Kでの大きな性能差がMATHや一般ドメインのベンチマークでは縮小する。これは、影響の大半が訓練分布内で生じることを示唆している。
- 著者らは、すべてのコード、設定、および評価データを、継続的な apples-to-apples 比較のためのリビング・コミュニティ・ベンチマークとして公開している。
