静的ビジョンを超えて:シーン・ダイナミック・フィールドがマルチモーダル大規模言語モデルにおける直感的な物理理解を解き放つ
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- 多モーダル大規模言語モデル(MLLM)は画像・動画理解に強い一方で、高レベルな物理推論、とりわけ「連続体(fluidなど)」のダイナミクス理解が大きく難しいことが示されている。
- この弱点を切り出して評価するために、Next Frame Selection(NFS)とTemporal Coherence Verification(TCV)という2つのベンチマークタスクを提案し、最先端MLLMでも基礎課題の成績が低いと報告している。
- その改善策として、Scene Dynamic Field(SDF)を提案し、物理シミュレータを活用したマルチタスク微調整で性能を大きく引き上げた。
- fluid系タスクで最大20.7%の改善が得られ、さらに未見の物理領域への一般化も強いことを示している。
- コードとデータが公開されており、コスト効率の良い「物理的に根拠のある」MLLM開発への有望な方向性を提示している。




