広告

TED:マルチモーダル推論のためのトレーニング不要のエクスペリエンス蒸留

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TEDは、マルチモーダル推論向けに、教師の「推論経験」をモデルのパラメータ更新ではなく、生徒のプロンプトへ転送する、トレーニング不要の文脈ベース知識蒸留手法を提案する。
  • 各入力に対して、生徒は複数の推論トラジェクトリをサンプリングし、教師が自身の解を生成して、生徒のトラジェクトリと正解(ground-truth)との両方と比較することで、有効な推論パターンを抽出する。
  • TEDは経験バッファを保持し、経験圧縮メカニズムにより、無制限な増大を防ぎ、選択的なマージ、書き換え、削除によってノイズを低減しながら、継続的にそれを洗練させる。
  • マルチモーダル推論ベンチマーク(MathVisionおよびVisualPuzzles)での実験では、一貫した性能向上が示される。たとえば、100件の学習サンプルのみでQwen3-VL-8Bの性能がMathVisionで0.627から0.702へ、VisualPuzzlesで0.517から0.561へ改善した。
  • これらの結果は、データが少なくパラメータ更新なしという設定でも、有意義な知識転送が可能であり、パラメータベースの蒸留と同等に近い性能を達成しつつ、学習コストを5倍以上削減できることを示している。

Abstract

知識蒸留は通常、教師モデルの知識を、生徒のパラメータへ教師ありまたは強化学習に基づく最適化によって転送することで実現されます。効果的ではあるものの、これらの手法は繰り返しのパラメータ更新と大規模な学習データを必要とするため、リソース制約のある環境での適用が限られます。本研究では、蒸留の更新対象をモデルのパラメータから、生徒のプロンプトに注入されるインコンテキスト経験へと移す、トレーニング不要の文脈ベース蒸留フレームワーク TED を提案します。各入力に対して、生徒は複数の推論軌跡を生成し、一方で教師は独立にそれ自身の解を生成します。その後、教師は生徒の軌跡を自身の推論および正解(ground-truth answer)と比較し、有効な推論パターンを捉えた一般化された経験を抽出します。これらの経験は継続的に洗練され、時間とともに更新されます。文脈ベース蒸留の重要な課題は、経験の増大が際限なく続くことによる未束縛の成長と、ノイズの蓄積です。TED は、使用統計を追跡し、有用性の低い経験を選択的に統合(マージ)、書き換え、または削除する経験圧縮メカニズムによってこれに対処します。マルチモーダル推論ベンチマークの MathVision および VisualPuzzles に関する実験では、TED が一貫して性能を向上させることが示されます。MathVision では TED は Qwen3-VL-8B の性能を 0.627 から 0.702 に引き上げ、VisualPuzzles では 100 個の学習サンプルのみで 0.517 から 0.561 へと向上します。この低データ・無更新という設定下で、TED は完全に学習済みのパラメータベース蒸留に匹敵する性能を達成しつつ、トレーニングコストを 5 倍以上削減します。つまり、文脈上の経験を通じて意味のある知識転移が実現できることを示しています。

広告