ManipArena:推論志向の汎用ロボット操作に関する、包括的で現実世界に基づく評価
arXiv cs.RO / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ManipArenaは、視覚-言語-行動(VLA)モデルやワールドモデルを実世界に近い形で評価するための標準化された評価フレームワークを提案しています。
- 既存のベンチマークがシミュレーション中心であり、現実の「ギャップ」(知覚ノイズ、接触ダイナミクス、ハード制約、レイテンシ等)を反映しにくい点を問題視し、そこを現場的な評価に置き換えることを目指しています。
- 10,812のエキスパート軌道にもとづく20の多様な課題を含み、意味的・空間的推論を要する“推論志向の汎用ロボット操作”や、テーブルトップ外の長期ホライズンのモバイル操作を扱います。
- 制御されたOOD(分布外)設定による多段階の一般化テスト、低レベルのモータ信号などの充実した診断情報、さらに高品質3Dスキャンに基づくreal-to-sim同期環境によって、VLA/ワールドモデル双方の公正で再現可能な比較を可能にします。
- 結果として、埋め込み知能(embodied intelligence)を診断し進展させるためのスケーラブルな基盤を提供することが狙いです。



