切り詰め推論自己蒸留による部分的チェーン・オブ・思考からの学習

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

要点

  • TRSDは、凍結された教師が完全な推論経路を生成し、その推論の切り詰められた訓練前のプレフィックスのみを用いて教師の回答分布に一致するよう学生を訓練する合成ターゲットを作成する訓練後の手順を導入する。- 本手法は、部分的な推論を条件として教師の出力を再現するよう学生を訓練し、短く限定された推論経路での推論を可能にする。- TRSDで強化されたモデルは、複数の推論ベンチマークおよびトークン予算に対する切り詰め推論への頑健性が向上し、精度のトレードオフが低減される。- 興味深いことに、TRSDで訓練されたモデルは、明示的な正則化がなくても本質的に短い推論経路を生成する傾向があり、実際の推論時のコストを低減する。

要約: 推論指向の言語モデルは、推論時に長い思考過程の痕跡を生成することによって高い性能を達成します。しかし、この能力には多大でしばしば過剰となる計算コストが伴い、それが冗長または非効率的な推論として現れることがあります。私たちはこの設定を研究し、Truncated-Reasoning Self-Distillation(TRSD)を導入します。これは部分的な推論過程の痕跡から正しい予測を出すようモデルを促す、軽量なポストトレーニング手法です。TRSD では、凍結した教師モデルがまず完全な推論過程の痕跡を生成し、プロンプトと完全な推論を条件として対応する回答分布を評価して、合成トレーニングターゲットを構築します。同じアーキテクチャを持つ生徒モデルは、推論過程の切り詰められた先頭部分のみに条件付けられた状態で、教師の回答分布に一致するように訓練されます。複数の推論ベンチマークとトークン予算を横断して、TRSD は切り詰められた推論へのロバスト性を向上させ、多様な推論モデルの集合に適用した場合、精度トレードオフを大幅に低減します。さらに、訓練時に短い生成を明示的に正規化することはないにもかかわらず、TRSD で訓練されたモデルは、切り詰めを行わずに本来短い推論過程の痕跡を出力する傾向があり、人工的な介入なしでも推論時のコストを大幅に削減します。

切り詰め推論自己蒸留による部分的チェーン・オブ・思考からの学習 | AI Navigate