広告

大規模言語モデルの蒸留に向けた多様性を考慮した逆カルバック・ライブラー(RKL)ダイバージェンス

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデル(LLM)の蒸留において逆カルバック・ライブラー(RKL)ダイバージェンスが有効である理由を分析し、通常はボキャブラリサイズや容量の不一致のもとで支配的なモードを強調することで、順方向KL(FKL)よりも優れた性能を示すことを明らかにする。
  • RKLには構造的な欠点があることを特定する。すなわち、非ターゲットに関する勾配が、学生がすでに教師に一致している場合でもターゲットのロジットを増加させうるため、多様性が低下し、学生が過度に確信的になる可能性がある。
  • 著者らは、RKLが非ターゲットクラスに対しては弱い教師信号を与えるため、裾(起こりにくい)カテゴリにおいてアラインメントが不十分になることを示す。
  • これらの問題を解決するために、問題となる勾配挙動を除去しつつ、RKLの最適化上の利点を維持しながら非ターゲットへの教師信号を改善するDiversity-aware RKL(DRKL)を提案する。
  • 複数のデータセットおよびモデルファミリにわたる実験により、DRKLが一貫してFKL、RKL、ならびに他の蒸留目的を上回り、忠実度–多様性のトレードオフを改善することが示される。

概要: 逆カルバック・ライブラー(RKL)ダイバージェンスは、近年、大規模言語モデル(LLM)の蒸留において好ましい目的関数として登場し、特に語彙が大きく、教師と学生の能力のミスマッチが大きい状況で、フォワードKL(FKL)を一貫して上回ることが示されています。これらの状況では、RKLは密な整合を強制するのではなく、支配的なモードに学習を集中させます。しかし、RKLには構造的な制約があり、学生を過度に自信のある予測へと導きます。まず、RKLの勾配をターゲット成分と非ターゲット成分に分解することでRKLの解析を行い、学生がすでに教師に一致している場合でも、非ターゲットの勾配が一貫してターゲットのロジットを押し上げることを示します。これにより、出力の多様性が低下します。さらに、RKLは非ターゲットクラスに対して弱い教師信号を与えるため、末尾(テール)側の整合が不十分になります。これらの問題に対処するため、Diversity-aware RKL(DRKL)を提案します。DRKLは、この勾配効果を取り除き、RKLの最適化上の利点を維持しつつ、非ターゲット側の教師信号を強化します。複数のデータセットおよびモデルファミリにわたる大規模な実験の結果、DRKLは一貫してFKL、RKL、ならびにその他の最先端の蒸留目的関数を上回り、より良い性能と、優れた忠実度(fidelity)—多様性(diversity)のトレードオフを達成することが示されました。

広告