ビデオモデルは「真のマルチモーダル推論」にどれくらい近いのか?

arXiv cs.CV / 2026/4/22

💬 オピニオンModels & Research

要点

  • 本論文では、既存のビデオモデル用ベンチマークは単純化されたタスク設計や評価指標の分断によって「真のマルチモーダル推論」を厳密に検証できていないと指摘しています。
  • 研究では、コンテキスト学習によるビデオ生成を通じてゼロショット推論を測る評価フレームワーク「CLVG-Bench」を提案し、6カテゴリ・47サブカテゴリにまたがる1,000件超の手動注釈データで構成されています。
  • さらに、人間の専門家の知覚と整合するよう最小限の注釈で動作する「Adaptive Video Evaluator(AVE)」を示し、さまざまな動画コンテキスト課題に対して解釈可能なテキストによるフィードバックを提供します。
  • 実験の結果、最先端のビデオモデル(例:Seedance 2.0)でも、論理に基づく生成や対話的な生成では大きく性能が落ち、成功率は25%未満、対話的生成ではほぼ0%となり、マルチモーダル推論と物理的な根拠付けが主要なボトルネックであることが示されました。
  • 著者らは、この枠組み(およびコード)が、限界を定量化して具体的な改善につながる診断と、より頑健な汎用ビデオモデルへのロードマップを提供すると主張しています。

要旨: 汎用的なビデオモデルに向けた目覚ましい進展にもかかわらず、未解決のまま残っている重要な問いがあります。それは、これらのモデルが「真のマルチモーダル推論」を達成するまでにどれほど遠いのか、という点です。既存のベンチマークは、この問いを厳密に扱えていません。なぜなら、それらは単純なタスク設計に制約されており、さらに複雑なマルチモーダル推論を無視する断片的な評価指標にとどまっているためです。このギャップを埋めるために、本研究では、Context Learning in Video Generation によってビデオモデルのゼロショット推論能力を探る評価枠組み CLVG-Bench を導入します。CLVG-Bench は、物理シミュレーション、論理推論、インタラクティブな状況などの複雑なシナリオを含む、6カテゴリおよび47サブカテゴリにまたがる、1,000件を超える高品質で手作業による注釈付きメタデータで構成されています。厳密かつスケーラブルな評価を可能にするため、さらに、人間の専門家の知覚と最小限の注釈で整合する Adaptive Video Evaluator(AVE)を提案します。これにより、多様なビデオ文脈タスクに対して、解釈可能なテキストによるフィードバックを提供できます。大規模な実験の結果、中心的な問いに対して驚くべき答えが得られました。すなわち、Seedance 2.0 のような最先端(SOTA)ビデオモデルは、理解や推論の一部の下位タスクでは一定の能力を示すものの、論理的に裏付けられた生成タスクやインタラクティブな生成タスクでは大きく劣っており、それぞれ成功率が <25% および ~0% です。これにより、マルチモーダル推論と物理的な根拠付けが重要なボトルネックであることが明らかになります。これらの制約を体系的に定量化することで、提案手法は実行可能なフィードバックと、真に頑健な汎用ビデオモデルへ向けた明確なロードマップを提供します。CLVG-Bench およびコードはここで公開します。