大規模言語モデルのオンポリス蒸留を再考する：現象学、メカニズム、レシピ

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文はオンポリス蒸留（OPD）を体系的に研究し、成功のための2つの重要条件を特定する。すなわち、教師と学生の間で「思考パターン」が整合していること、そして教師が学生の学習済み経験を超える形で、真に新規な能力を提供していること。
弱いものから強いものへの逆蒸留（weak-to-strong reverse distillation）を用いて、同系統の1.5Bおよび7Bの教師は学生の観点から分布的に識別不能になり得ることを見出す。これは、真の新規性がない場合には増分の恩恵が限定的であることを示唆する。
トークンレベルのプロービングにより、成功するOPDは、学生が実際に訪れた状態において、特定の高確率トークンへと段階的に整合していくことで生じることが分かる。さらに、共有トークン集合が確率質量の大部分（97%–99%）を占めることが示される。
著者らは、失敗するOPDを回復するための2つの戦略—オフポリシーのコールドスタートと、教師整合的なプロンプト選択—を提案し、学習効果を取り戻すことを目指す。
OPDは、密なトークンレベルの報酬によって「ただ乗り（free lunch）」のように見える一方で、本研究ではそれに伴うコストがあることを論じ、長いホライズンでの蒸留に対するOPDのスケーリングに関して未解決の問いを提起する。

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

日経XTECH

大規模言語モデルのオンポリス蒸留を再考する：現象学、メカニズム、レシピ

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ルネサス、初の双方向GaNスイッチ AIデータセンターや太陽光発電狙う

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減