MAD-OPD:マルチエージェントの討論によるオンポリシー蒸留の「天井」を破る
arXiv cs.CL / 2026/5/5
📰 ニュースModels & Research
要点
- この論文は、オンポリシー蒸留(OPD)の主要な制約として「単一教師の能力上限」と、エージェント的な長い軌道で各ステップの誤りが累積して学習が不安定になる点を挙げています。
- 提案手法のMAD-OPDは、単一の蒸留教師を、学生のオンポリシー状態をめぐって複数教師が討論する仕組みに置き換え、その討論後の確信度で各教師の寄与を重み付けしながらトークンレベルの教師信号を生成します。
- エージェント的な設定でOPDを安定にするために、OPADとしてステップレベルのサンプリングを追加し、多段の誤りが増幅される問題を抑える工夫を提案しています。
- タスクに応じた発散(divergence)の原理を導出し、エージェントの安定性にはJensen–Shannon divergence、コード生成にはreverse KL(Kullback–Leibler)を用いることを示し、理論と実験の両面で検証しています。
- Qwenの複数の教師–学生サイズ構成と5つのエージェント/コードベンチマークで実験し、MAD-OPDが全6構成で1位を達成し、特定の設定では単一教師OPDよりエージェント性能+2.4%、コード平均+3.7%改善しました。