大規模言語モデルの蒸留に向けた多様性を考慮した逆カルバック・ライブラー（RKL）ダイバージェンス

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデル（LLM）の蒸留において逆カルバック・ライブラー（RKL）ダイバージェンスが有効である理由を分析し、通常はボキャブラリサイズや容量の不一致のもとで支配的なモードを強調することで、順方向KL（FKL）よりも優れた性能を示すことを明らかにする。
RKLには構造的な欠点があることを特定する。すなわち、非ターゲットに関する勾配が、学生がすでに教師に一致している場合でもターゲットのロジットを増加させうるため、多様性が低下し、学生が過度に確信的になる可能性がある。
著者らは、RKLが非ターゲットクラスに対しては弱い教師信号を与えるため、裾（起こりにくい）カテゴリにおいてアラインメントが不十分になることを示す。
これらの問題を解決するために、問題となる勾配挙動を除去しつつ、RKLの最適化上の利点を維持しながら非ターゲットへの教師信号を改善するDiversity-aware RKL（DRKL）を提案する。
複数のデータセットおよびモデルファミリにわたる実験により、DRKLが一貫してFKL、RKL、ならびに他の蒸留目的を上回り、忠実度–多様性のトレードオフを改善することが示される。

概要: 逆カルバック・ライブラー（RKL）ダイバージェンスは、近年、大規模言語モデル（LLM）の蒸留において好ましい目的関数として登場し、特に語彙が大きく、教師と学生の能力のミスマッチが大きい状況で、フォワードKL（FKL）を一貫して上回ることが示されています。これらの状況では、RKLは密な整合を強制するのではなく、支配的なモードに学習を集中させます。しかし、RKLには構造的な制約があり、学生を過度に自信のある予測へと導きます。まず、RKLの勾配をターゲット成分と非ターゲット成分に分解することでRKLの解析を行い、学生がすでに教師に一致している場合でも、非ターゲットの勾配が一貫してターゲットのロジットを押し上げることを示します。これにより、出力の多様性が低下します。さらに、RKLは非ターゲットクラスに対して弱い教師信号を与えるため、末尾（テール）側の整合が不十分になります。これらの問題に対処するため、Diversity-aware RKL（DRKL）を提案します。DRKLは、この勾配効果を取り除き、RKLの最適化上の利点を維持しつつ、非ターゲット側の教師信号を強化します。複数のデータセットおよびモデルファミリにわたる大規模な実験の結果、DRKLは一貫してFKL、RKL、ならびにその他の最先端の蒸留目的関数を上回り、より良い性能と、優れた忠実度（fidelity）—多様性（diversity）のトレードオフを達成することが示されました。

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

Dev.to

推論エンジン――LLMの層を視覚的に深掘りする

Dev.to

エージェント型フローにおけるQwen3.5 9Bの能力の高さに驚かされた（CodeMode）

Reddit r/LocalLLaMA

企業コンプライアンスにおけるAI幻覚：CISOはリスクをどう封じ込めるか

Dev.to

大規模言語モデルの蒸留に向けた多様性を考慮した逆カルバック・ライブラー（RKL）ダイバージェンス

要点

関連記事

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

推論エンジン――LLMの層を視覚的に深掘りする

エージェント型フローにおけるQwen3.5 9Bの能力の高さに驚かされた（CodeMode）

企業コンプライアンスにおけるAI幻覚：CISOはリスクをどう封じ込めるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer