単一サンプルを超えて: 動画理解のための信頼性の高いマルチサンプル蒸留
arXiv cs.CV / 2026/3/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- R-MSD(Reliable Multi-Sample Distillation)を提案する。教師のサンプリング分散をモデル化し、タスク適応型の教師プールを活用して、LVLMsによる動画理解のための堅牢な監督を提供するフレームワーク。
- 品質を意識した信号マッチングと対抗的蒸留目的を組み合わせ、教師ノイズを除去し知識移転を最大化する。
- 動画理解のベンチマークでの広範な評価において、R-MSDは単一サンプル蒸留法を一貫して上回ることを示す。
- 4Bサイズのスチューデントモデルでは、VideoMME (+1.5%)、Video-MMMU (+3.2%)、MathVerse (+3.6%) の利得を達成し、同じトレーニング予算下で4BのSFT+RLベースラインを上回る。
要約: 従来の大規模ビジョン-言語モデル(LVLMs)のブラックボックス蒸留は通常、入力ごとに1つの教師応答に依存するため、マルチモーダルまたは時間的なシナリオでは応答の分散が大きく、フォーマットの不整合が生じやすい。これを緩和するため、R-MSD(Reliable Multi-Sample Distillation)を提案する。これは教師のサンプリング分散を明示的にモデル化し、蒸留の安定性を高める。1つの教師応答に頼るのではなく、タスク適応型の教師プールを活用して、閉じた問題と開いた推論の両方に適した堅牢な監督を提供する。品質を意識した信号マッチングと対抗的蒸留目的を組み合わせることで、教師ノイズを効果的にフィルタリングし、知識移転を最大化する。包括的な動画理解ベンチマークにおける広範な評価は、R-MSDが単一サンプル蒸留法を一貫して上回ることを示している。トレーニング予算が同じである条件下で、元のSFT+RL 4Bベースラインも含めて評価を行ったが、同条件下でのベースラインはわずかな利得しか示さず、我々の手法は顕著な改善を達成する。4Bスチューデントモデルでは、私たちのアプローチがVideoMME(+1.5%)、Video-MMMU(+3.2%)、MathVerse(+3.6%)の利得をもたらす。

