妥当性キャリブレーション付き推論蒸留

arXiv cs.AI / 2026/5/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルの多段推論能力をより小さく効率的なモデルへ移すことを目的に、「妥当性キャリブレーション付き推論蒸留」を提案する。
従来の軌跡（トラジェクトリ）模倣や固定的な教師—生徒階層の模倣ではなく、同一の接頭辞の下で教師と生徒が提案する次の行動を比較し、相対的な局所妥当性に応じて更新の強さを調整する。
蒸留を「推論経路の整合」ではなく「局所的な学習信号の配分」として捉え直すことで、途中手順が局所的に一意に決まらないという推論の構造により合致させる。
数学的推論、コード生成、指示追従の各ベンチマークで、強力な蒸留ベースラインに対して一貫して上回る結果が示される。
これらの結果は、効果的な推論蒸留が、厳密な経路模倣よりも、原理に基づく文脈依存の監督（学習信号）キャリブレーションに左右されることを示唆している。

概要: 推論の蒸留は、多段の推論能力を大規模言語モデルから、小型でより効率的なモデルへ移し替えることを目的とします。近年の手法では有望な向上が示されているものの、通常は静的な教師-生徒の階層に依存し、蒸留を軌跡の模倣（trajectory imitation）として捉えます。しかしこれは、推論の構造と整合していません。推論では、中間ステップがしばしば局所的に十分に特定されていないのです。最終的な正しさは全体的な正しさによって制約されますが、各中間の手を一意に決定するわけではありません。そこで本研究では、有効性キャリブレーション付き推論蒸留（validity-calibrated reasoning distillation）を提案します。この枠組みでは、推論の蒸留を経路（パス）整合ではなく、局所的な学習シグナル配分（local learning-signal allocation）の問題として扱います。トークン単位の模倣を強制する代わりに、同一の接頭辞のもとで、生徒と教師が提案する次ステップの行動を比較し、それらの相対的な局所的有効性に基づいて蒸留更新の強さを調節します。これにより、教師の構造的な導き（structural guidance）を保持しつつ、更新強度を局所的な推論品質に応じて適応させる、動的で文脈依存の教師信号を実現します。数学的推論、コード生成、指示追従のベンチマークにおいて、本手法は強力な蒸留のベースラインを一貫して上回ります。これらの結果は、有効なLLM推論蒸留が、硬直した軌跡の模倣によって支配されるのではなく、原理に基づく局所的にキャリブレーションされた学習シグナル配分によって左右されることを示しています。