共進化ポリシー蒸留(Co-Evolving Policy Distillation)

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数のエキスパート能力を単一モデルへ統合するためのポストトレーニング手法として、RLVR と OPD を統一的に分析し、失敗要因を異なる形で特定しています。
  • 混合 RLVR では能力間の発散コストが問題になり得る一方、エキスパートを先に学習してから OPD を行う方式では、教師と生徒の行動パターンのギャップが大きいために教師能力を十分に吸収できないことが示されます。
  • そこで提案されるのが Co-Evolving Policy Distillation(CoPD)で、エキスパートを並列に訓練し、各エキスパートの進行中の RLVR 学習の最中に OPD を導入します。
  • エキスパート同士を相互教師として OPD を双方向に行うことで、エキスパート間の行動パターンをより一貫させつつ、補完的な知識を保てるとしています。
  • 実験では CoPD がテキスト・画像・動画の推論能力を「統合一体」で実現し、混合 RLVR や MOPD といった強いベースラインに大きく勝ち、さらにドメイン特化エキスパートをも上回る結果が報告されています。

Abstract

RLVR と OPD は、事後学習における標準的なパラダイムとなっています。私たちは、複数のエキスパート能力を単一モデルに統合するという観点から、これら 2 つのパラダイムを統一的に分析します。能力喪失の様態は異なり、混合 RLVR では能力間の発散によるコストが生じます。一方で、まずエキスパートを訓練し、その後に OPD を行うパイプラインは、発散を回避できるものの、教師と生徒の間に大きな行動パターンの隔たりがあるため、教師の能力を十分に吸収できません。そこで、Co-Evolving Policy Distillation(CoPD)を提案します。CoPD は、エキスパートの並列訓練を促し、エキスパートを完全に訓練し終えた後ではなく、各エキスパートの進行中の RLVR 訓練の各段階で OPD を導入します。さらに、エキスパートがお互いを教師として機能することで(OPD を双方向にすることで)、共同で進化できるようにします。これにより、訓練期間を通して十分な補完的知識を維持しつつ、エキスパート間でより一貫した行動パターンを実現できます。実験により、CoPD がテキスト・画像・動画の推論能力を 1 つの統合モデルとして達成し、混合 RLVR や MOPD といった強力なベースラインを大幅に上回ること、さらには領域特化のエキスパートでさえ上回ることが検証されます。CoPD が提供するモデル並列訓練のパターンは、新しい学習スケーリングのパラダイムに着想を与える可能性があります。