All in One:マルチモーダル動画理解のための統合型合成データパイプライン

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数の動画理解タスク向けに、多様で豊富な監督情報を備えたマルチモーダル動画データを大量に自動生成する、統合型の合成データパイプラインを提案する。
  • 1つの枠組みの中で複数のタスク形式をサポートし、物体数え上げ、動画質問応答、動画物体セグメンテーションといったタスクにわたってデータ作成をスケーラブルかつ一貫性のあるものにすることを目指す。
  • 推論と視覚的グラウンディングを改善するため、著者らはVQAベースの微調整戦略を導入する。これは、キャプションや一般的な指示のみに依存するのではなく、動画内容について構造化された質問に答えるようモデルを学習させる。
  • 3つのベンチマークタスクにまたがる実験により、主に合成データで学習したモデルが実世界のデータセットへも良好に汎化できること、またしばしば、より伝統的な実データ注釈アプローチで学習したモデルを上回ることが示される。

概要: 動画理解のためのマルチモーダル大規模言語モデル(MLLMs)の学習には、物体の数え上げ、質問応答、セグメンテーションなど多様なタスクにまたがる大規模な注釈付きデータが必要です。しかし、現実世界でマルチモーダル動画データを収集・注釈付けすることは費用が高く、遅く、そして本質的に多様性やカバー範囲に限界があります。この課題に対処するために、豊かで多様な教師情報を伴う、無制限にマルチモーダル動画データを自動生成できる統一的な合成データ生成パイプラインを提案します。提案手法の枠組みは、単一のパイプライン内で複数のタスク形式をサポートし、タスク間にわたるスケーラブルかつ一貫したデータ作成を可能にします。さらに推論能力を高めるために、キャプションや単純な指示のみに依存するのではなく、視覚コンテンツについて構造化された質問に答えるようモデルを訓練する、VQAベースの微調整戦略を導入します。この定式化により、より深い視覚的な根拠づけと推論が促されます。本手法を、3つの難度の高いタスク、すなわち動画における物体数え上げ、動画に基づく視覚質問応答、および動画物体セグメンテーションで評価します。実験結果は、合成データを主に用いて学習したモデルが現実世界のデータセットへ効果的に汎化し、多くの場合、従来型の学習手法で訓練されたモデルを上回ることを示しています。これらの知見は、マルチモーダル動画理解における高コストな現実世界の注釈の代替として、統一的な合成データパイプラインがスケーラブルな選択肢となり得る可能性を示しています。