大規模言語モデルのオンポリス蒸留を再考する:現象学、メカニズム、レシピ

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はオンポリス蒸留(OPD)を体系的に研究し、成功のための2つの重要条件を特定する。すなわち、教師と学生の間で「思考パターン」が整合していること、そして教師が学生の学習済み経験を超える形で、真に新規な能力を提供していること。
  • 弱いものから強いものへの逆蒸留(weak-to-strong reverse distillation)を用いて、同系統の1.5Bおよび7Bの教師は学生の観点から分布的に識別不能になり得ることを見出す。これは、真の新規性がない場合には増分の恩恵が限定的であることを示唆する。
  • トークンレベルのプロービングにより、成功するOPDは、学生が実際に訪れた状態において、特定の高確率トークンへと段階的に整合していくことで生じることが分かる。さらに、共有トークン集合が確率質量の大部分(97%–99%)を占めることが示される。
  • 著者らは、失敗するOPDを回復するための2つの戦略—オフポリシーのコールドスタートと、教師整合的なプロンプト選択—を提案し、学習効果を取り戻すことを目指す。
  • OPDは、密なトークンレベルの報酬によって「ただ乗り(free lunch)」のように見える一方で、本研究ではそれに伴うコストがあることを論じ、長いホライズンでの蒸留に対するOPDのスケーリングに関して未解決の問いを提起する。