ManipArena：推論志向の汎用ロボット操作に関する、包括的で現実世界に基づく評価

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ManipArenaは、視覚-言語-行動（VLA）モデルやワールドモデルを実世界に近い形で評価するための標準化された評価フレームワークを提案しています。
既存のベンチマークがシミュレーション中心であり、現実の「ギャップ」（知覚ノイズ、接触ダイナミクス、ハード制約、レイテンシ等）を反映しにくい点を問題視し、そこを現場的な評価に置き換えることを目指しています。
10,812のエキスパート軌道にもとづく20の多様な課題を含み、意味的・空間的推論を要する“推論志向の汎用ロボット操作”や、テーブルトップ外の長期ホライズンのモバイル操作を扱います。
制御されたOOD（分布外）設定による多段階の一般化テスト、低レベルのモータ信号などの充実した診断情報、さらに高品質3Dスキャンに基づくreal-to-sim同期環境によって、VLA/ワールドモデル双方の公正で再現可能な比較を可能にします。
結果として、埋め込み知能（embodied intelligence）を診断し進展させるためのスケーラブルな基盤を提供することが狙いです。

Abstract

Vision-Language-Action（VLA）モデルとワールドモデルは、汎用的なロボット知能のための有望なパラダイムとして近年登場してきたが、実環境への導入を反映する信頼性の高い評価プロトコルが欠けているため、その進展は妨げられている。既存のベンチマークは概ねシミュレーター中心であり、制御可能性は提供するものの、知覚ノイズ、複雑な接触ダイナミクス、ハードウェア制約、システム遅延によって生じる現実のギャップを捉えきれていない。さらに、異なるロボットプラットフォーム間での実世界評価が断片化されているため、公平で再現可能な比較ができない。これらの課題に対処するために、シミュレーションと実環境での実行をつなぐことを目的とした標準化された評価フレームワークであるManipArenaを提案する。ManipArenaは、専門家による10,812本の軌跡に基づいて、意味的推論と空間的推論を必要とする推論志向のマニピュレーション課題を中心に、10種類の多様な環境にまたがる20の多様なタスクで構成される。制御された分布外（out-of-distribution）の設定により、複数レベルでの汎化をサポートし、テーブルトップ以外のシナリオへと拡張された長時間ホライズンの移動マニピュレーションも取り込んでいる。さらに、このフレームワークは、低レベルのモータ信号を含む豊富な感覚診断機能や、高品質な3Dスキャンを介して構築された同期型の実環境とシミュレーション環境も提供する。これらの特徴により、VLAおよびワールドモデルの両アプローチに対して、公平で現実的かつ再現可能な評価が可能となり、身体性を備えた知能システムを診断し前進させるためのスケーラブルな基盤を提供する。