切り詰め推論自己蒸留による部分的チェーン・オブ・思考からの学習

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

共有:

要点

TRSDは、凍結された教師が完全な推論経路を生成し、その推論の切り詰められた訓練前のプレフィックスのみを用いて教師の回答分布に一致するよう学生を訓練する合成ターゲットを作成する訓練後の手順を導入する。- 本手法は、部分的な推論を条件として教師の出力を再現するよう学生を訓練し、短く限定された推論経路での推論を可能にする。- TRSDで強化されたモデルは、複数の推論ベンチマークおよびトークン予算に対する切り詰め推論への頑健性が向上し、精度のトレードオフが低減される。- 興味深いことに、TRSDで訓練されたモデルは、明示的な正則化がなくても本質的に短い推論経路を生成する傾向があり、実際の推論時のコストを低減する。

要約: 推論指向の言語モデルは、推論時に長い思考過程の痕跡を生成することによって高い性能を達成します。しかし、この能力には多大でしばしば過剰となる計算コストが伴い、それが冗長または非効率的な推論として現れることがあります。私たちはこの設定を研究し、Truncated-Reasoning Self-Distillation（TRSD）を導入します。これは部分的な推論過程の痕跡から正しい予測を出すようモデルを促す、軽量なポストトレーニング手法です。TRSD では、凍結した教師モデルがまず完全な推論過程の痕跡を生成し、プロンプトと完全な推論を条件として対応する回答分布を評価して、合成トレーニングターゲットを構築します。同じアーキテクチャを持つ生徒モデルは、推論過程の切り詰められた先頭部分のみに条件付けられた状態で、教師の回答分布に一致するように訓練されます。複数の推論ベンチマークとトークン予算を横断して、TRSD は切り詰められた推論へのロバスト性を向上させ、多様な推論モデルの集合に適用した場合、精度トレードオフを大幅に低減します。さらに、訓練時に短い生成を明示的に正規化することはないにもかかわらず、TRSD で訓練されたモデルは、切り詰めを行わずに本来短い推論過程の痕跡を出力する傾向があり、人工的な介入なしでも推論時のコストを大幅に削減します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

切り詰め推論自己蒸留による部分的チェーン・オブ・思考からの学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer