要旨: ロボットによる操作(マニピュレーション)システムの評価は、これまで主に少数の専門家によって作成された固定ベンチマークに依存してきました。そこでは、課題インスタンス、制約、成功基準が事前に定義されており、拡張が困難です。このパラダイムは、評価の形を誰が作れるかを制限し、ユーザーが作成した課題の意図、制約、そして「成功」の概念のバリエーションに対して方策(ポリシー)がどのように応答するのかを見えにくくします。私たちは、現代の操作方策を評価するには、評価を、構造化された物理領域に対する言語主導のプロセスとして捉え直す必要があると主張します。私たちは、構造化された物理領域の中で自然言語を用いて、ユーザーが実行可能な操作タスクを作成できるフレームワークであるRoboPlaygroundを提案します。自然言語の指示は、明示的なアセット定義、初期化分布、成功述語を含む、再現可能なタスク仕様へとコンパイルされます。各指示は、関連するタスクの構造化された一族を定義し、実行可能性と比較可能性を維持しながら、制御された意味的・行動的な変化を可能にします。私たちは、構造化されたブロック操作の領域においてRoboPlaygroundを具体化し、3つの軸に沿って評価します。ユーザー調査の結果、言語主導のインターフェースは、プログラミングベースおよびコード支援のベースラインよりも使いやすく、認知的負荷が低いことが示されました。さらに、言語で定義されたタスク一族に対して学習済み方策を評価すると、固定ベンチマークによる評価では見えない一般化の失敗が明らかになります。最後に、タスク多様性はタスク数だけでなく、寄与者の多様性に応じてスケールすることを示し、クラウドによる寄与を通じて評価空間が継続的に拡大していくことを可能にします。プロジェクトページ: https://roboplayground.github.io
RoboPlayground:構造化された物理領域を通じてロボティクス評価を民主化する
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- RoboPlaygroundは、ロボットの操作(マニピュレーション)評価を、固定された専門家が作成するベンチマークから、構造化された物理領域上での言語駆動型のプロセスへと移行することを提案します。
- この枠組みでは、利用者が自然言語で実行可能な操作タスクを作成でき、それらが、アセット、初期化分布、成功判定述語(success predicates)を含む再現可能な仕様へとコンパイルされます。
- 関連するタスクの構造化されたファミリーを定義することで、RoboPlaygroundは、タスクを比較可能かつ貢献者間で実行可能に保ちながら、制御された意味的/行動的な変動を可能にします。
- ブロック操作の領域での実験では、プログラミングやコード支援ベースのアプローチよりも利用者の認知負荷が低いことが示され、また固定ベンチマークによって隠れていた一般化の失敗も明らかにします。
- 著者らは、評価空間の多様性が貢献者の多様性に応じてスケールすることを見出し、タスクファミリーを継続的に群衆(クラウド)によって共同で拡張していくことを支えるとしています。


