洗練を探る: 説明的反転による大規模言語モデルの強化蒸留
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Explanatory Inversion(EI)を導入し、学習者モデルがパターンを暗記するのではなく基礎的な推論を説明するよう促すために、ターゲットを絞った説明的プローブを用いる。
- さらに、ExGRPO という、対話構造ユーティリティボーナスを報酬とする強化学習アプローチを提案し、プローブ間で一貫した推論を報酬付けして一般化を改善する。
- Gemma-7b を学習者として用いた12データセットの評価では、ゼロショット性能に対して平均約20.39%の向上、最先端の蒸留ベースラインに対して約6.02%の向上を示し、分布外一般化も強い。
- 本手法は従来のファインチューニングと比較して訓練データを10〜25%程度に抑えるだけで訓練効率を実現しており、コードは提供されたGitHubリンクで公開されている。


