HEAL: 後知恵エントロピー支援学習による推論蒸留
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- HEALは、大規模推論モデルから小型モデルへ推論を蒸留する際の拒絶サンプリングの制約と教師の天井を解消する、RLを用いないフレームワークです。
- 本フレームワークは、Guided Entropy-Assisted Repair (GEAR)、Perplexity-Uncertainty Ratio Estimator (PURE)、Progressive Answer-guided Curriculum Evolution (PACE) の3つのモジュールを組み合わせ、重要な推論の分岐点を検出し、真のブレークスルーをフィルタリングし、カリキュラムの進行を導きます。
- このフレームワークは、近接発達領域(ZPD)の理論を参照し、訓練中に後知恵のヒントを注入して壊れた推論の軌跡を修復します。
- 複数のベンチマークでの広範な実験により、HEALは従来の教師あり微調整による蒸留や他のベースラインを著しく上回ることが示されています。
- 本研究は、モデル蒸留における新しいアプローチを提示し、標準的な手法に対する顕著な改善を実証しています。
要旨: 大規模推論モデル(LRMs)から小型モデルへ推論能力を蒸留することは、通常、拒絶サンプリングの制約によって制限されます。標準的な手法は教師を静的なフィルターとして扱い、教師が自力で有効な解を独立して探索できない「コーナーケース」問題を破棄することで、学生に対して人工的な「教師の天井」を作り出します。本研究では、RLを用いないフレームワークとしてのHindsight Entropy-Assisted Learning(HEAL)を提案し、この推論ギャップを埋めることを目指します。Zone of Proximal Development(ZPD)の教育理論を基盤として、HEALは3つのコアモジュールを統合します:(1)Guided Entropy-Assisted Repair(GEAR)— エントロピーのダイナミクスを用いて重要な推論の分岐点を検出し、的を絞った後知恵のヒントを注入して壊れた軌跡を修復する能動的介入機構;(2)Perplexity-Uncertainty Ratio Estimator(PURE)— 真の認知的ブレークスルーを偽のショートカットから分離する厳密なフィルタリングプロトコル;(3)Progressive Answer-guided Curriculum Evolution(PACE)— 基礎的な整合性から最前線のブレークスルーへ訓練を組織する3段階の蒸留戦略。複数のベンチマークでの広範な実験により、HEALは従来のSFT蒸留および他のベースラインを著しく上回ることが示されています。
