視覚・言語・行動モデルにおける「身体化された推論」幻想の解明

arXiv cs.RO / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、視覚・言語・行動（VLA）モデルの高いベンチマーク成績は、真の身体化された推論を反映していない可能性があるとして、誤解を招くと主張する。
BeTTERという診断用ベンチマークを提案し、空間・時間方向の因果介入と「運動学的アイソレーション」により、推論の失敗と低レベル制御の限界を切り分ける。
系統的評価の結果、最先端VLAは動的な状況で重大に失敗し、語彙-運動学的ショートカットへの依存、行動の慣性、意味特徴の崩壊が見られる。
機構的分析では、容量圧縮や近視的ダウンサンプリングといったアーキテクチャ上のボトルネックが、基盤となる意味表現を劣化させていることを示す。
現実のロボットによる検証により、この表現崩壊はシミュレーション特有の偶然ではなく、静的評価プロトコルがセンサーモータ優先への過学習によって問題を隠し得ることが示される。

要旨: 近年の視覚-言語-行動（VLA）モデルは、標準的なロボティクスのベンチマークで目覚ましい成功率を報告しており、汎用的な身体知能への期待を高めています。しかし、最近の証拠は、標準ベンチマークにおける成功と、真の身体化された推論の間に体系的なミスアライメントが存在することを示唆しており、これらの高得点が本物の認知能力を反映しているのかという疑問が生じています。このギャップに対処するため、私たちは BeTTER を提案します。BeTTER は、ロボット政策における真の身体化された推論を検証するための診断用ベンチマークです。BeTTER は、（空間レイアウトの変化や時間的外挿などの）狙いを定めた因果介入を適用しつつ、運動学的アイソレーションを強制することで、高レベルの推論失敗を低レベルの実行限界から明示的に切り離します。体系的な評価を通じて、最先端の VLA が動的な状況で壊滅的に失敗することを明らかにします。そこでは、深刻な語彙-運動学的ショートカット、行動の慣性、そして意味特徴の崩壊が観察されます。重要なのは、機械論的な分析により、これらの症状が、容量圧縮や近視的ダウンサンプリングといった根本的なアーキテクチャ上のボトルネックに起因していることを追跡できた点です。これらのボトルネックは、モデルの基盤となる意味表現を体系的に劣化させます。さらに、非常に静的な評価プロトコルが、この劣化を効果的に隠してしまうことを示します。すなわち、センサーモータの事前知識に過剰適合するよう最適化が誘導されるためです。実世界でのロボット検証によって裏付けられた私たちの結果は、この表現の破綻がシミュレーション上の偶然の産物ではないことを確認します。これにより、将来の VLA パラダイムが、高頻度の制御と高レベル推論の間に存在する構造的な緊張を解消するための重要性が強調されます。