時間的利得と空間的コスト: マルチモーダル大規模言語モデルにおける動画ファインチューニングの再検討

arXiv cs.CV / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Video-SFTはマルチモーダルLLMにおける動画理解を向上させるが、静止画像ベンチマークでは限定的な改善しか得られない、あるいは劣化につながることもあり、画像と動画の共同訓練における空間的–時間的トレードオフを浮き彫りにしている。

要旨：マルチモーダル大規模言語モデル（MLLMs）は通常、複数段階で訓練され、動画ベースの教師ありファインチューニング（Video-SFT）が視覚理解の向上における重要なステップとして機能します。
しかし、その視覚能力の細かな発展、特に空間理解と時間理解のバランスに対する影響は、依然として十分には理解されていません。
本論文では、Video-SFTがMLLMsの視覚能力をどのように再形成するかを体系的に研究します。アーキテクチャ、パラメータ規模、フレームサンプリング設定を横断して、私たちは一貫したパターンを観察します：
Video-SFTは動画の性能を着実に向上させますが、静止画像ベンチマークではしばしば限られた改善しか得られず、むしろ劣化することさえあります。さらに、このトレードオフは時間的予算と密接に関連していることを示します：サンプリングしたフレーム数を増やすと、一般に動画のパフォーマンスは向上しますが、静止画像のパフォーマンスを確実に改善するとは限りません。
この結論に動機づけられ、指示認識型のハイブリッドフレーム戦略を研究します。これはフレーム数を適応的に割り当て、画像と動画のトレードオフを部分的に緩和します。私たちの結果は、Video-SFTがMLLMsにとって「タダで得られる」ものではなく、空間理解を維持することが、画像と動画を同時に訓練する際の中心的な課題であり続けることを示しています。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

時間的利得と空間的コスト: マルチモーダル大規模言語モデルにおける動画ファインチューニングの再検討

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも