Self-Distillation Zero：自己修正により二値報酬を密な教師信号へ変換

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検証可能なタスクから得られる疎な二値報酬を、外部の教師や高品質なデモンストレーションを必要とせずに、トークン単位の密な教師信号へと変換する Self-Distillation Zero（SD-Zero）を提案する。
SD-Zero は単一モデルを 2 つの役割で用いる。すなわち、初期解答を生成する Generator と、Generator の応答に加えてその二値報酬を条件付けとして受け取り、改善された応答を生成する Reviser である。
その後、オンポリシーの自己蒸留を行い、Reviser のトークン分布を Generator に逆転送（転移）することで、報酬に基づいて重要なトークンを特定し、修正するようにモデルを実効的に学習させる。
数学およびコード推論ベンチマークにおける実験（Qwen3-4B-Instruct と Olmo-3-7B-Instruct を使用）では、ベースモデルに対して少なくとも 10% の改善が示され、同一の学習サンプル予算下で、RFT、GRPO、SDFT などのベースラインよりも良い結果が得られる。
アブレーションにより、特徴的な 2 つの挙動が明らかになる。すなわち、修正すべき応答トークンをトークンレベルで自己局所化すること、そして、正則な教師同期による反復的な自己進化である。

要旨: 検証可能な設定における現在の事後学習（post-training）手法は、2つのカテゴリに大別できる。強化学習（RLVR）は二値報酬に依存し、幅広く適用可能で強力だが、学習中に得られる教師信号は疎である。蒸留（distillation）は、外部の教師（teacher）や高品質なデモンストレーションから通常得られる、密なトークンレベルの教師信号を提供する。そのような教師信号の収集はコストがかかる、または利用できないことがある。我々は、強化学習よりも実質的にトレーニングサンプル効率が高く、外部の教師や高品質なデモンストレーションを必要としない手法 Self-Distillation Zero（SD-Zero）を提案する。SD-Zeroは、単一のモデルを2つの役割で学習させる。初期応答を生成する Generator と、その応答と二値報酬を条件としてより良い応答を生成する Reviser である。次に、オンポリシー自己蒸留を行い、reviser を generator に蒸留する。これは、generator の応答とその報酬を条件としたときの reviser のトークン分布を、教師信号として用いることで実現する。要するに SD-Zero は、モデルを学習させて二値報酬を密なトークンレベルの自己教師信号へと変換する。Qwen3-4B-Instruct および Olmo-3-7B-Instruct の数学およびコード推論ベンチマークにおいて、SD-Zero は基盤モデルに対して少なくとも 10% 改善し、同一の質問集合と学習サンプル予算のもとで、Rejection Fine-Tuning（RFT）、GRPO、Self-Distillation Fine-Tuning（SDFT）を含む強力なベースラインを上回る。大規模なアブレーション研究により、提案アルゴリズムには2つの新規な特性があることが示される。(a) トークンレベルの自己局所化：reviser が、報酬に基づいて generator の応答の中で修正が必要な主要トークンを特定できる。(b) 反復的な自己進化：回答を修正する能力の向上が、定期的な教師の同期（teacher synchronization）によって生成性能へと蒸留され得る。