EgoDyn-Bench:自動運転向けの視覚中心基盤モデルにおけるエゴ運動理解の評価
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、自動運転環境において視覚中心の基盤モデルがエゴ運動の物理をどれだけ意味的に理解できるかを検査するためのベンチマーク「EgoDyn-Bench」を提案している。
- 決定論的なオラクルを用いて連続的な車両運動学を離散的な動作概念へ対応付けることで、「物理ロジック」と「視覚知覚」を切り分け、どこで失敗が起きているかを診断する。
- 閉設のMLLMを含む20+モデルの大規模監査の結果、モデルが物理的な概念は持っている一方で、視覚観測との整合がうまく取れず、しばしば学習しない幾何学ベースラインを下回る「Perception Bottleneck(知覚のボトルネック)」が一貫して見られた。
- この問題はモデル規模や自動運転領域での追加学習にもまたがっており、視覚知覚と物理推論の結合の仕方に構造的な欠陥があることを示唆している。
- 明示的な軌道エンコーディングを与えると評価対象すべてで物理整合性が大きく回復し、現在のモデルではエゴ運動ロジックが主に言語モダリティから導かれ、視覚入力はほとんど追加の手がかりになっていない可能性が示された。




