静的ビジョンを超えて：シーン・ダイナミック・フィールドがマルチモーダル大規模言語モデルにおける直感的な物理理解を解き放つ

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

多モーダル大規模言語モデル（MLLM）は画像・動画理解に強い一方で、高レベルな物理推論、とりわけ「連続体（fluidなど）」のダイナミクス理解が大きく難しいことが示されている。
この弱点を切り出して評価するために、Next Frame Selection（NFS）とTemporal Coherence Verification（TCV）という2つのベンチマークタスクを提案し、最先端MLLMでも基礎課題の成績が低いと報告している。
その改善策として、Scene Dynamic Field（SDF）を提案し、物理シミュレータを活用したマルチタスク微調整で性能を大きく引き上げた。
fluid系タスクで最大20.7%の改善が得られ、さらに未見の物理領域への一般化も強いことを示している。
コードとデータが公開されており、コスト効率の良い「物理的に根拠のある」MLLM開発への有望な方向性を提示している。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH