共進化ポリシー蒸留(Co-Evolving Policy Distillation)
arXiv cs.LG / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数のエキスパート能力を単一モデルへ統合するためのポストトレーニング手法として、RLVR と OPD を統一的に分析し、失敗要因を異なる形で特定しています。
- 混合 RLVR では能力間の発散コストが問題になり得る一方、エキスパートを先に学習してから OPD を行う方式では、教師と生徒の行動パターンのギャップが大きいために教師能力を十分に吸収できないことが示されます。
- そこで提案されるのが Co-Evolving Policy Distillation(CoPD)で、エキスパートを並列に訓練し、各エキスパートの進行中の RLVR 学習の最中に OPD を導入します。
- エキスパート同士を相互教師として OPD を双方向に行うことで、エキスパート間の行動パターンをより一貫させつつ、補完的な知識を保てるとしています。
- 実験では CoPD がテキスト・画像・動画の推論能力を「統合一体」で実現し、混合 RLVR や MOPD といった強いベースラインに大きく勝ち、さらにドメイン特化エキスパートをも上回る結果が報告されています。




