AI Navigate

洗練を探る: 説明的反転による大規模言語モデルの強化蒸留

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Explanatory Inversion(EI)を導入し、学習者モデルがパターンを暗記するのではなく基礎的な推論を説明するよう促すために、ターゲットを絞った説明的プローブを用いる。
  • さらに、ExGRPO という、対話構造ユーティリティボーナスを報酬とする強化学習アプローチを提案し、プローブ間で一貫した推論を報酬付けして一般化を改善する。
  • Gemma-7b を学習者として用いた12データセットの評価では、ゼロショット性能に対して平均約20.39%の向上、最先端の蒸留ベースラインに対して約6.02%の向上を示し、分布外一般化も強い。
  • 本手法は従来のファインチューニングと比較して訓練データを10〜25%程度に抑えるだけで訓練効率を実現しており、コードは提供されたGitHubリンクで公開されている。

Abstract

大規模言語モデル(LLMs)から堅牢な推論能力を、小型で計算効率の高い学生モデルへ蒸留することは、未解決の課題のままである。近年の進展にもかかわらず、蒸留されたモデルはしばしば表面的なパターンの暗記と乏しい一般化に悩まされる。これらの限界を克服するために、単なる模倣を超えて、より深い概念理解を定着させる新規蒸留フレームワークを導入する。本フレームワークには二つの主要な革新がある。 \underline{\textit{第一}}、パターンの記憶化に対処するため、説明的反転(EI)は、解答の背後にある根本的な論理を学生に明確に説明させるように促す、ターゲットを絞った「説明的プローブ」を生成します。 \underline{\textit{第二}}、一般化を改善するため、説明的GRPO(\texttt{EXGRPO})は、新規の対話構造ユーティリティボーナスを組み込んだ強化学習アルゴリズムを用い、これらのプローブを横断して一貫した推論プロセスを維持することを学生に対して明示的に報います。 12データセットに対する広範な評価により、顕著な改善が示されています。Gemma-7bを学生モデルとして用いると、我々の手法はゼロショット性能を平均で \textbf{20.39\\%} 向上させ、最先端の蒸留ベースラインに対して \textbf{6.02\\%} の改善を達成します。さらに、我々の手法で蒸留されたモデルは、訓練データの使用量を \textbf{10-25\\%} に抑えつつ、通常のファインチューニングを凌ぐ優れたトレーニング効率と、分布外タスクへの強い一般化能力を示します。実装は https://github.com/Zhen-Tan-dmml/ExGRPO.git に公開されています。