共進化ポリシー蒸留（Co-Evolving Policy Distillation）

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複数のエキスパート能力を単一モデルへ統合するためのポストトレーニング手法として、RLVR と OPD を統一的に分析し、失敗要因を異なる形で特定しています。
混合 RLVR では能力間の発散コストが問題になり得る一方、エキスパートを先に学習してから OPD を行う方式では、教師と生徒の行動パターンのギャップが大きいために教師能力を十分に吸収できないことが示されます。
そこで提案されるのが Co-Evolving Policy Distillation（CoPD）で、エキスパートを並列に訓練し、各エキスパートの進行中の RLVR 学習の最中に OPD を導入します。
エキスパート同士を相互教師として OPD を双方向に行うことで、エキスパート間の行動パターンをより一貫させつつ、補完的な知識を保てるとしています。
実験では CoPD がテキスト・画像・動画の推論能力を「統合一体」で実現し、混合 RLVR や MOPD といった強いベースラインに大きく勝ち、さらにドメイン特化エキスパートをも上回る結果が報告されています。

Abstract

RLVR と OPD は、事後学習における標準的なパラダイムとなっています。私たちは、複数のエキスパート能力を単一モデルに統合するという観点から、これら 2 つのパラダイムを統一的に分析します。能力喪失の様態は異なり、混合 RLVR では能力間の発散によるコストが生じます。一方で、まずエキスパートを訓練し、その後に OPD を行うパイプラインは、発散を回避できるものの、教師と生徒の間に大きな行動パターンの隔たりがあるため、教師の能力を十分に吸収できません。そこで、Co-Evolving Policy Distillation（CoPD）を提案します。CoPD は、エキスパートの並列訓練を促し、エキスパートを完全に訓練し終えた後ではなく、各エキスパートの進行中の RLVR 訓練の各段階で OPD を導入します。さらに、エキスパートがお互いを教師として機能することで（OPD を双方向にすることで）、共同で進化できるようにします。これにより、訓練期間を通して十分な補完的知識を維持しつつ、エキスパート間でより一貫した行動パターンを実現できます。実験により、CoPD がテキスト・画像・動画の推論能力を 1 つの統合モデルとして達成し、混合 RLVR や MOPD といった強力なベースラインを大幅に上回ること、さらには領域特化のエキスパートでさえ上回ることが検証されます。CoPD が提供するモデル並列訓練のパターンは、新しい学習スケーリングのパラダイムに着想を与える可能性があります。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

共進化ポリシー蒸留（Co-Evolving Policy Distillation）

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣