SODA:大規模言語モデルのための半オントポリシー・ブラックボックス蒸留

arXiv cs.LG / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、SODAという半オントポリシー・ブラックボックス蒸留手法を提案する。この手法は、誤り訂正型のオンポリシー手法と、不安定で高コストな敵対的蒸留とのトレードオフを解決することを目的とする。

Abstract

大規模言語モデルに対するブラックボックス知識蒸留は、厳密なトレードオフを伴います。シンプルなオフポリシー手法(例:シーケンスレベル知識蒸留)は、生徒が本来持つ誤りを修正するのが難しいです。一方、完全なオンポリシー手法(例:生成的敵対的蒸留)は、敵対的学習によってこの問題を解決しますが、よく知られた学習の不安定さと、深刻な計算オーバーヘッドを導入します。このジレンマに対処するため、我々はSODA(Alignmentを伴う半オンポリシー蒸留)を提案します。これは、フロンティアの教師とそれよりはるかに小さい基盤モデルの間に存在する固有の能力ギャップに動機づけられた、高効率な代替手法です。コンパクトな生徒モデルの自然なゼロショット応答は、強力な教師のターゲットに対してほぼ確実に劣っているため、教師の最適応答と、生徒の出力を1回だけ固定した静的スナップショットを組み合わせることで、非常に効果的な対照的(コントラスタブル)な学習信号を構成できます。これにより、小さな生徒にその静的な劣った振る舞いをさらすだけで、高品質な分布整合が達成できることが示され、コストの高い動的ロールアウトや、脆弱な敵対的バランシングを不要にします。4つのコンパクトなQwen2.5およびLlama-3モデルに対する大規模な評価により、この半オンポリシーの枠組みが検証されます。SODAは、16件のベンチマーク結果のうち15件で、最先端手法に一致または上回ります。さらに重要なのは、より優れた蒸留品質を達成しながら、学習を10倍高速化し、ピークGPUメモリを27%削減し、敵対的な不安定性を完全に取り除いていることです。