TED:マルチモーダル推論のためのトレーニング不要のエクスペリエンス蒸留
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- TEDは、マルチモーダル推論向けに、教師の「推論経験」をモデルのパラメータ更新ではなく、生徒のプロンプトへ転送する、トレーニング不要の文脈ベース知識蒸留手法を提案する。
- 各入力に対して、生徒は複数の推論トラジェクトリをサンプリングし、教師が自身の解を生成して、生徒のトラジェクトリと正解(ground-truth)との両方と比較することで、有効な推論パターンを抽出する。
- TEDは経験バッファを保持し、経験圧縮メカニズムにより、無制限な増大を防ぎ、選択的なマージ、書き換え、削除によってノイズを低減しながら、継続的にそれを洗練させる。
- マルチモーダル推論ベンチマーク(MathVisionおよびVisualPuzzles)での実験では、一貫した性能向上が示される。たとえば、100件の学習サンプルのみでQwen3-VL-8Bの性能がMathVisionで0.627から0.702へ、VisualPuzzlesで0.517から0.561へ改善した。
- これらの結果は、データが少なくパラメータ更新なしという設定でも、有意義な知識転送が可能であり、パラメータベースの蒸留と同等に近い性能を達成しつつ、学習コストを5倍以上削減できることを示している。



