要旨: ロボット汎用性を持つエージェント、すなわち多様な環境で多様なタスクを実行できるエージェントの追求には、厳密でスケーラブルな評価が求められます。
しかし、ロボットポリシーの実世界での評価は本質的に制約され続けています。労働集約的で遅く、規模の拡大に伴い安全性が問題となり、再現が難しいのです。
ポリシーの適用範囲と複雑さが拡大するにつれて、これらの障壁はさらに強まります。ロボティクスにおける「成功」を定義する際には、実行品質に関する微妙な人間の判断に依存することが多いためです。
私たちは RobotArena Infinity を紹介します。これは、視覚と言語と行動(VLA)評価をオンラインの人間のフィードバックを付与した大規模なシミュレーション環境へ移すことにより、これらの課題を克服する新しいベンチマークフレームワークです。
視覚と言語のモデル、2Dから3Dへの生成モデリング、微分可能レンダリングの進歩を活用し、私たちのアプローチは、広く用いられているロボットデータセットのビデオデモンストレーションを自動的にシミュレートされた対応物へ変換します。
これらのデジタルツインの中で、VLAポリシーを自動化された視覚と言語モデルに基づくスコアリングと、クラウドワーカーから収集された拡張可能な人間の嗜好判断の両方を用いて評価します。人間の関与を、煩雑なシーン設定、リセット、安全監視から、軽量な嗜好比較へと変換します。
頑健性を測るため、テクスチャやオブジェクト配置を含む複数の軸に沿ってシミュレーション環境を系統的に撹乱し、制御された変動の下でポリシーの一般化をストレステストします。
その結果は、現実世界で訓練されたロボットの操作ポリシーに対する、継続的に進化し再現性が高くスケーラブルなベンチマークとなり、今日のロボティクスの現場で欠けている重要な能力を解決します。
RobotArena ∞: 実世界からシミュレーションへの翻訳によるスケーラブルなロボットベンチマーク
arXiv cs.RO / 2026/3/23
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- RobotArena ∞は、オンラインの人間のフィードバックを活用して、実世界のロボットポリシー評価を大規模なシミュレーション環境へ移行させる、スケーラブルなベンチマーキングフレームワークを提供します。
- このフレームワークは、既存のロボットデータセットのビデオデモンストレーションを、視覚-言語モデル、2D-to-3D生成モデリング、微分可能レンダリングを用いてデジタルツインへ自動的に変換します。
- 評価は、自動化された視覚-言語モデルに基づく採点と、クラウドワーカーから収集した大規模な人間の嗜好判断を組み合わせ、手動での監視を削減します。
- 頑健性は、テクスチャや物体の配置などのシミュレーションを体系的に撹乱してテストし、制御された変動の下でポリシーの一般化を評価します。
- 目的は、継続的に進化し再現性のあるベンチマークを作成・提供し、実世界のロボット評価におけるスケーラビリティ、安全性、再現性のギャップを埋めることです。




