要旨:マルチモーダル大規模言語モデル(MLLMs)は通常、複数段階で訓練され、動画ベースの教師ありファインチューニング(Video-SFT)が視覚理解の向上における重要なステップとして機能します。
しかし、その視覚能力の細かな発展、特に空間理解と時間理解のバランスに対する影響は、依然として十分には理解されていません。
本論文では、Video-SFTがMLLMsの視覚能力をどのように再形成するかを体系的に研究します。アーキテクチャ、パラメータ規模、フレームサンプリング設定を横断して、私たちは一貫したパターンを観察します:
Video-SFTは動画の性能を着実に向上させますが、静止画像ベンチマークではしばしば限られた改善しか得られず、むしろ劣化することさえあります。さらに、このトレードオフは時間的予算と密接に関連していることを示します:サンプリングしたフレーム数を増やすと、一般に動画のパフォーマンスは向上しますが、静止画像のパフォーマンスを確実に改善するとは限りません。
この結論に動機づけられ、指示認識型のハイブリッドフレーム戦略を研究します。これはフレーム数を適応的に割り当て、画像と動画のトレードオフを部分的に緩和します。私たちの結果は、Video-SFTがMLLMsにとって「タダで得られる」ものではなく、空間理解を維持することが、画像と動画を同時に訓練する際の中心的な課題であり続けることを示しています。
時間的利得と空間的コスト: マルチモーダル大規模言語モデルにおける動画ファインチューニングの再検討
arXiv cs.CV / 2026/3/19
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Video-SFTはマルチモーダルLLMにおける動画理解を向上させるが、静止画像ベンチマークでは限定的な改善しか得られない、あるいは劣化につながることもあり、画像と動画の共同訓練における空間的–時間的トレードオフを浮き彫りにしている。