Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models
arXiv cs.CV / 4/7/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- 多モーダル大規模言語モデル(MLLM)は画像・動画理解に強い一方で、高レベルな物理推論、とりわけ「連続体(fluidなど)」のダイナミクス理解が大きく難しいことが示されている。
- この弱点を切り出して評価するために、Next Frame Selection(NFS)とTemporal Coherence Verification(TCV)という2つのベンチマークタスクを提案し、最先端MLLMでも基礎課題の成績が低いと報告している。
- その改善策として、Scene Dynamic Field(SDF)を提案し、物理シミュレータを活用したマルチタスク微調整で性能を大きく引き上げた。
- fluid系タスクで最大20.7%の改善が得られ、さらに未見の物理領域への一般化も強いことを示している。
- コードとデータが公開されており、コスト効率の良い「物理的に根拠のある」MLLM開発への有望な方向性を提示している。
Related Articles

Black Hat Asia
AI Business

Fully Automated Website 2026-04-11: **The Scoreboard — Visual Judge Score Comparison on the Homepage**
Dev.to
Human-Aligned Decision Transformers for satellite anomaly response operations with ethical auditability baked in
Dev.to

That Smoking-Gun Video? It's Not Evidence. It's a Suspect.
Dev.to

AI Citation Registries and Website-Based Publishing Constraints
Dev.to