要旨: 人間は、幾何学的構造と意味内容が時間とともに進化する物理的な4D世界に住んでおり、それは動的な4D現実(空間次元と時間次元の組み合わせ)を構成します。現在のマルチモーダル大規模言語モデル(MLLM)は静的な視覚理解において優れていますが、彼らはまた「ダイナミクス思考」として、進化するシーンにおける時空間ダイナミクスを知覚・追跡・推論することができるのでしょうか。これらの時空間推論と局所的なダイナミクス知覚能力を体系的に評価するために、多様な現実世界および合成ビデオデータセットから構築された大規模なベンチマーク Dyn-Bench を導入します。これにより、時空間理解の堅牢でスケーラブルな評価が可能になります。膨大な2Dおよび4Dデータソースからの多段階フィルタリングを通じて、Dyn-Bench は高品質な動的シーンのコレクションを提供します。内訳は1,000本の動画、7,000件のビジュアル質問応答(VQA)ペア、および3,000件の動的オブジェクトグラウンディングペアです。一般・空間・領域レベルのMLLMを評価して、彼らがダイナミクスの中でどのように考えるかを言語的にも視覚的にも表現させ、既存のモデルは時空間推論と動的オブジェクトグラウンディングの両方で同時に高い性能を維持できないことを発見しました。しばしば動きや相互作用の解釈が一貫していません。特に、従来のプロンプト戦略(例:チェーン・オブ・ソート(思考の連鎖)やキャプションベースのヒント)は限定的な改善しかもたらさないのに対し、Mask-Guided Fusion(マスク誘導フュージョン)や Spatio-Temporal Textual Cognitive Map(ST-TCM)を含む構造化統合アプローチは、物理的な4D世界におけるMLLMのダイナミクス知覚と時空間推論を大幅に強化します。コードとベンチマークは https://dyn-bench.github.io/ で利用可能です。
ダイナミクスを考える: マルチモーダル大規模言語モデルは、物理的な4次元世界のダイナミクスをどのように知覚し、追跡し、推論するのか
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Dyn-Bench は多段階フィルタリングを適用した大規模な時空間ダイナミクス評価ベンチマークで、現実世界および合成動画データの多様性から構築され、動画1,000本、VQAペア7,000件、動的オブジェクトのグラウンディングペア3,000件を含む。
- 本ベンチマークは、一般的な理解、空間理解、および領域レベルの理解の堅牢な評価を可能にし、MLLMが4D世界で進化するシーンをどのように知覚・追跡・推論するかを検証できる。
- 本研究は、既存のモデルが時空間推論と動的オブジェクトのグラウンディングの両方で高い性能を維持することが難しく、運動や相互作用の解釈が一貫しないケースが多いことを示している。
- 従来のプロンプティング戦略(例:Chain-of-Thought やキャプションベースのヒント)は改善が限定的である一方、Mask-Guided Fusion および Spatio-Temporal Textual Cognitive Map(ST-TCM)のような構造化統合アプローチは、ダイナミクスの知覚と推論を大幅に向上させる。




