要旨: 知識蒸留(KD)は、大規模言語モデル(LLM)から小型の学習者へと能力を転送しますが、予測不能な形で失敗することがあり、さらにモデル漏えいのリスクの根幹にもなっています。我々の分析により、いくつかの蒸留の罠が明らかになりました。すなわち、末尾のノイズ、オフポリシー不安定性、そして最も根本的には、学習信号を歪める教師と学習者のギャップです。これらの罠は、過度に自信のある幻覚、自動修正の崩壊、局所的な復号の劣化として現れ、蒸留が失敗します。これらの知見に動機づけられ、我々は事後(post-hoc)のキャリブレーション手法を提案します。この手法は、我々の知る限り、初めて強化学習による微調整(RFT)を通じて教師の蒸留可能性を制御できるようにします。我々の目的は、タスク有用性、KLアンカー、およびトークナイザをまたいだキャリブレーション報酬を組み合わせたものです。これにより、基盤モデルにとって蒸留可能性を実用的な安全性のレバーとすることが可能になり、堅牢な教師—学習者間の転送と、デプロイメントを意識したモデル保護を結び付けます。数学、知識QA、指示追従タスクにまたがる実験により、蒸留可能でキャリブレーションされた教師から蒸留した学習者は、SFTおよびKDのベースラインを上回ることが示されました。一方で、蒸留不可能でキャリブレーションされた教師はタスク性能を保持するものの、蒸留された学習者を崩壊させます。これは、より良いKDとモデルIP保護の両方のための実用的な調整つまみを提供するものです。
「蒸留トラップ」と「ガード」:LLM蒸留可能性を調整するためのキャリブレーション・ノブ
arXiv cs.LG / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMの教師モデルから小型の学生モデルへ行う知識蒸留(KD)がなぜ予測不能に失敗するのかを分析し、「蒸留トラップ」として訓練シグナルを歪める要因を特定します。
- とりわけ根本的な問題として、教師と学生のギャップが挙げられており、その結果として過信的な幻覚、自律的な自己修正の崩壊、ローカルなデコード劣化が起き得ると述べています。
- 著者らは、強化微調整(RFT)による事後キャリブレーション手法を提案し、教師モデルの蒸留可能性を制御してKDの挙動をより確実にすることを目指します。
- その手法は、タスク有用性、KLアンカー、さらにトークナイザをまたいだキャリブレーション報酬を組み合わせた目的関数で最適化します。
- 数学・知識QA・指示追従の実験では、蒸留可能にキャリブレーションされた教師から蒸留した学生がSFTやKDのベースラインを上回り、一方で蒸留不可能にキャリブレーションした教師では学生の蒸留が崩壊しつつ教師側のタスク性能は維持されることを示し、モデルIP保護の実用的なレバーになる可能性を示しています。

