RoboEval：ロボティック・マニピュレーションと構造化・スケーラブルな評価の交差点

arXiv cs.RO / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

RoboEvalは、ロボティック・マニピュレーション向けの構造化されたスケーラブルな評価フレームワークとして提案され、成功/失敗の単純な数だけではなく、原理に基づく行動指標とアウトカム指標で性能を評価します。
ベンチマークは、体系的に制御されたバリエーションを備えた8つの両腕タスクを含み、3,000件以上のエキスパート実演と、再現可能な実験を可能にするモジュール式シミュレーション基盤によって支えられます。
各タスクには、効率・協調・安全性/安定性を定量化する標準化された指標に加え、段階（ステージ）ごとの進捗を追跡し失敗が起きる場所を特定するアウトカム計測が組み込まれています。
著者らは、最先端のビジュオモータポリシーを用いた広範な実験により、提案指標の有効性を「変動下での安定性」「同程度の成功率の手法を見分ける識別力」「タスク成功との相関」で検証しています。
RoboEvalは、失敗モードをより観察しやすく手法間で比較可能にすることを狙い、実行品質の診断を“集計結果”だけに留めない評価を促進します。

要旨: 本論文では、ロボットによるマニピュレーションのための、構造化された評価フレームワークおよびベンチマークであるRoboEvalを導入する。RoboEvalは、二値的な成功/失敗に加えて、原理に基づく行動および結果（アウトカム）の指標を付与することで評価を拡張する。既存の評価はしばしばパフォーマンスを結果数へと単純化し、その結果、実行の質の違いが見えにくくなり、失敗の構造も覆い隠されてしまうことが多い。RoboEvalは、系統的に制御された変動を備えた8つの両手（バイマニュアル）タスク、3000件を超える専門家によるデモンストレーション、および再現可能な実験のためのモジュール化されたシミュレーション基盤を提供する。すべてのタスクは、効率、協調性、安全性/安定性を定量化する標準化された指標で計測されており、さらに、段階ごとの進捗を追跡し、失敗の局所的な様式を特定するアウトカム指標も併せて備えている。最先端の視覚運動（ビジュオモータ）ポリシーを用いた大規模な実験により、変動に対する頑健性、成功率が同程度のポリシー間における識別能力、タスク成功との相関を分析することで、これらの指標を検証する。プロジェクトページ: https://robo-eval.github.io