広告

Perplexityが嘘をつくとき:ハイブリッド系列モデルの生成重視の蒸留

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論を効率化するためにTransformerモデルを蒸留することは、学生側のアーキテクチャと蒸留プロセスが、複数選択のスコアリングではなく自己回帰的な生成のために共同設計されていない場合、生成品質を大きく劣化させうると主張している。
  • ログ尤度/パープレキシティに基づく評価は、現実世界での大きなギャップを見えなくしてしまうことを示す。蒸留した7Bモデルはログ尤度では教師モデルにほぼ匹敵する一方で、自己回帰的に回答を生成することが求められる場面では大幅に劣る。
  • 著者らはHybrid-KDAアーキテクチャと、訓練全体の設計判断を生成ベースの評価で導く多段階蒸留パイプライン「GenDistill」を提案する。
  • Qwen3-0.6Bに対する一連のアブレーション実験により、データセット選択、後学習におけるcompletion-onlyのロス・マスキング、後学習中に注意層(attention layers)を凍結することなどが、生成品質を改善するうえで特に影響が大きい要因であることが示される。
  • 最良のHybrid-KDA学生モデルは、知識ベンチマークにおける教師の精度を86〜90%保持しつつ、KVキャッシュメモリを最大75%削減し、128Kトークン文脈でのTTFT(time-to-first-token)を2〜4倍改善する。

要旨: 事前学習済みのTransformerを蒸留によって、より効率的なハイブリッドモデルへ変換することは、推論コストを削減するための有望なアプローチである。しかし、蒸留モデルにおいて高品質な生成を達成するには、生徒(student)のアーキテクチャと蒸留プロセスの双方を慎重に共同設計する必要がある。従来の多くの蒸留研究では、自動回帰的生成を要求するのではなく、候補となる回答を対数尤度で順位付けすることで下流の多肢選択ベンチマークを評価しており、モデル品質の重要な差を見えにくくする可能性がある。たとえば、対数尤度スコアリングにおいて教師に対して0.2\,pp以内でほぼ一致する7Bパラメータの蒸留モデルが、自動回帰的に回答を生成しなければならない場合には、実際には20.8\,pp後れを取ることを示す。 我々は、Hybrid Kimi Delta Attention(Hybrid-KDA)というハイブリッドなアーキテクチャと、複数段階の蒸留パイプラインであるGenDistillを提案し、設計上の意思決定を導くために生成ベースの評価を通して用いる。このアプローチをQwen3-0.6Bに適用し、訓練目的、損失マスキング、訓練期間、データセット選択、パラメータ凍結、アーキテクチャ選択という6つの設計軸について体系的にアブレーションを行う。その結果、対数尤度ベースの評価は一貫して教師と生徒の間のギャップを過小評価し、場合によっては設計上の選択肢の順位付けを逆転させ得ることが分かる。つまり、パープレキシティのみの評価から導かれる結論は誤解を招く可能性がある。調査した要因の中では、データセット選択、完了(completion)のみを対象にするマスキング、そしてポストトレーニング中に注意(attention)層を凍結することが、生成品質への影響が最も大きい。 我々の最良のHybrid-KDAモデルは、知識ベンチマークにおいて教師の精度を86--90\%保持しつつ、KVキャッシュメモリを最大75\%削減し、128Kトークン文脈におけるtime-to-first-tokenを2--4\times改善する。

広告