RoboLab:タスク汎用(task generalist)ポリシーの解析のための高忠実度シミュレーション・ベンチマーク

arXiv cs.RO / 2026/4/14

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • RoboLabは、ロボットのタスク汎用(task generalist)政策の本当の汎化を評価するために、シミュレーションでのベンチマークが抱える飽和・学習/評価のドメイン重複といった課題を解決する枠組みとして提案されています。
  • RoboLabは、物理的に現実的でフォトリアリスティックなシミュレーション上で、ロボットや政策に依存しない形でシーンとタスクを人手またはLLMで生成できるとしています。
  • 提案ベンチマークRoboLab-120は、視覚・手続き(procedural)・関係(relational)という3つの能力軸と3段階の難易度からなる120タスクで構成されます。
  • 制御された外乱(perturbations)に対する行動の感度まで定量化し、高精細なシミュレーションが現実での性能や外部要因依存性の代理として機能し得ることを示しています。
  • RoboLabによる評価では、既存の最先端モデルに性能ギャップがあることや、粒度の高い指標とスケーラブルなツールにより汎化能力の実態をより掴めると主張しています。

要旨: 汎用ロボティクスの追求は、印象的な基盤モデルを生み出してきましたが、シミュレーションに基づくベンチマークは、性能の急速な飽和と真の汎化(ジェネラライゼーション)の検証が欠如していることにより、ボトルネックのままです。既存のベンチマークはしばしば、学習と評価の間で大きな領域の重複が見られ、その結果、成功率が些細なものになってしまい、頑健性に関する洞察が見えにくくなります。私たちは、これらの課題に対処するためのシミュレーション・ベンチマーク枠組みであるRoboLabを提案します。具体的に、私たちの枠組みは次の2つの問いに答えることを目的としています: (1) シミュレーション上でその振る舞いを分析することで、実環境での方策(ポリシー)の性能をどの程度理解できるのか、そして (2) 制御された摂動(パートローバーション)の下で、その振る舞いに最も強く影響する外部要因は何か。まず、RoboLabは、ロボットや方策に依存しない形で、人手によるおよびLLMによるシーンとタスクの生成を可能にします。しかも、それは物理的に現実的でフォトリアルなシミュレーション内で行われます。これにより、3つのコンピテンシー軸(視覚、手続き、関係性のコンピテンシー)に分類され、3つの難易度レベルにまたがる全120のタスクからなるRoboLab-120ベンチマークを提案します。次に、私たちは、実環境の方策に対する体系的な分析を導入します。これは、性能と、制御された摂動に対する振る舞いの感度の両方を定量化し、高忠実度のシミュレーションが、性能および外部要因への依存性を分析するための代理(プロキシ)として機能しうることを示します。RoboLabによる評価は、現在の最先端モデルにおける顕著な性能ギャップを明らかにします。きめ細かな指標とスケーラブルなツールセットを提供することで、RoboLabは、タスク汎用(タスク・ジェネラリスト)のロボティクス方策が持つ真の汎化能力を評価するための、拡張可能な枠組みを提供します。