EgoDyn-Bench：自動運転向けの視覚中心基盤モデルにおけるエゴ運動理解の評価

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、自動運転環境において視覚中心の基盤モデルがエゴ運動の物理をどれだけ意味的に理解できるかを検査するためのベンチマーク「EgoDyn-Bench」を提案している。
決定論的なオラクルを用いて連続的な車両運動学を離散的な動作概念へ対応付けることで、「物理ロジック」と「視覚知覚」を切り分け、どこで失敗が起きているかを診断する。
閉設のMLLMを含む20+モデルの大規模監査の結果、モデルが物理的な概念は持っている一方で、視覚観測との整合がうまく取れず、しばしば学習しない幾何学ベースラインを下回る「Perception Bottleneck（知覚のボトルネック）」が一貫して見られた。
この問題はモデル規模や自動運転領域での追加学習にもまたがっており、視覚知覚と物理推論の結合の仕方に構造的な欠陥があることを示唆している。
明示的な軌道エンコーディングを与えると評価対象すべてで物理整合性が大きく回復し、現在のモデルではエゴ運動ロジックが主に言語モダリティから導かれ、視覚入力はほとんど追加の手がかりになっていない可能性が示された。

Abstract

自動運転において、視覚言語モデル（VLM）が自律的な推論を高度に発展させている一方で、その推論を自我運動（ego-motion）という基盤となる物理に結び付ける能力は、いまだ十分に理解されていません。私たちは、視覚中心の基盤モデルの意味的な自我運動理解を評価するための診断ベンチマーク「EgoDyn-Bench」を提案します。連続的な車両運動学（キネマティクス）を決定論的なオラクルにより離散的な運動概念へ写像することで、モデル内部の物理的論理と、その視覚認識を切り離します。閉鎖ソースのMLLMを含む20+モデルにまたがる大規模な経験的監査により、複数のスケールにわたるオープンソースのVLM、そして専用のVLAを含めて、重要な「知覚ボトルネック」を特定します。すなわち、モデルは論理的な物理概念を示すものの、それを視覚観測に正確に整合させることが一貫してできず、しばしば従来の非学習型（古典的な）幾何学ベースラインよりも性能が劣ります。この失敗はモデルスケールおよびドメイン固有の学習にまたがって持続し、現在のアーキテクチャが視覚認識と物理推論を結合する方法における構造的欠陥を示唆しています。評価したすべてのモデルにおいて、明示的な軌道エンコーディングを与えることで物理的整合性が大幅に回復することを示し、さらに、視覚と言語の間に機能的な切り離し（disentanglement）があることを明らかにします。すなわち、自我運動の論理はほぼ専ら言語モダリティから導出され、視覚観測は追加の有意な信号をほとんど提供しません。この構造的発見は、標準化された診断フレームワークと、物理的に整合したエンボディドAIへの実践的な道筋を提供します。キーワード: 自我運動 - 物理推論 - 基盤モデル