要旨: オンポリシー蒸留(OPD)は、専門化されたエキスパートモデルの能力を単一の生徒モデルへと集約するための、有効な事後学習パラダイムとして近年登場している。経験的には成功しているにもかかわらず、OPDが信頼できる改善をもたらす条件は十分に理解されていない。本研究では、効果的なOPDを制限する2つの基本的ボトルネックを特定する。すなわち、情報を含む状態の探索が不十分であること、そして生徒のロールアウトに対する教師の監督が信頼できないことである。この洞察に基づき、本研究ではUni-OPD(統一OPD)を提案する。Uni-OPDは、大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の両方にわたって一般化する統一的OPDフレームワークであり、二重視点の最適化戦略を中心にしている。具体的には、生徒の観点からは、学習中に情報を含む生徒生成状態の探索を促進するために、2つのデータ・バランシング戦略を採用する。教師の観点からは、信頼できる監督は、集約されたトークン単位のガイダンスが、報酬(アウトカム)の結果と順序一貫性を保っているかどうかに左右されることを示す。そこで本研究では、正しい軌跡と誤った軌跡の間で順序一貫性を回復するための、アウトカムに導かれたマージン校正メカニズムを開発する。さらに、5つのドメインおよび16のベンチマークに対して、大規模な実験を行う。そこには、LLMとMLLMにおける単一教師および複数教師の蒸留、強者から弱者への蒸留、そしてクロスモーダル蒸留といった多様な設定が含まれる。結果は、Uni-OPDの有効性と汎用性を検証し、信頼できるOPDに関する実用的な洞察を提供する。
Uni-OPD:デュアル・パースペクティブのレシピでオンポリシー蒸留を統一する
arXiv cs.LG / 2026/5/6
📰 ニュースModels & Research
要点
- この論文は、オンポリシー蒸留(OPD)がうまく機能しない理由を分析し、有益な状態の探索不足と、ロールアウト中に生じる教師の監督の不確実性という2つの主要なボトルネックを特定します。
- Uni-OPDとして、LLMとマルチモーダルLLMの両方にまたがって機能する統一フレームワークを提案し、デュアル・パースペクティブの最適化戦略を中心に据えます。
- 学習する生徒側では、学習中に生徒が生成する有益な状態を探索しやすくするため、2つのデータ・バランシング手法を用います。
- 教師側では、トークン単位の指示が最終的な報酬(アウトカム)と整合しているかどうかに着目し、正しい経路と誤った経路の順序整合性を回復する「アウトカム指向マージン・キャリブレーション」を提案します。
- 5つのドメイン、16のベンチマークに対して実験し(単一/複数教師、強者→弱者、クロスモーダル蒸留などを含む)、Uni-OPDが有効かつ幅広く適用可能で、信頼性の高いOPDのための実践的知見を提供することを示します。



