CaP-X: ロボット操作のためのコーディング・エージェントをベンチマークし改善するためのフレームワーク

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体性のあるロボット操作に対する「Code-as-Policy(コード=方策)」型コーディングエージェントをベンチマークし改善するための、オープンアクセスのフレームワークCaP-Xを提案する。
  • 中核となるコンポーネントであるCaP-Gymは、知覚と制御のプリミティブを組み合わせたプログラムを合成し実行することで、エージェントがロボットを操作できるインタラクティブ環境を提供する。
  • CaP-Benchを用いて、著者らは12の最先端の言語/視覚言語モデルを評価し、人間が作成した抽象化により性能が向上する一方、そうした事前知識(プリア)を取り除くと性能が低下することを見出し、設計者による足場(スキャフォールド)への依存性を示している。
  • 本研究は、テスト時計算のスケーリングによって頑健性を改善できることを示し(例:マルチターンの相互作用、構造化された実行フィードバック、視覚差分、スキル合成、アンサンブル)、複数タスクで人間レベルの信頼性を達成するトレーニング不要の手法としてCaP-Agent0を提案する。
  • さらにCaP-RLも提案しており、検証可能な報酬を伴う強化学習が成功率を改善し、小さなギャップでより良いシミュレーションから現実への移転(sim-to-real transfer)を可能にすることを示す。

Abstract

"Code-as-Policy(コード・アズ・ポリシー)"は、実行可能なコードがデータ集約型のVision-Language-Action(VLA)手法をどのように補完し得るかを考察するが、身体化された操作(embodied manipulation)のための自律的な制御器としての有効性は、いまだ十分に調査されていない。私たちは、ロボット操作においてCode-as-Policyエージェントを体系的に研究するための、オープンアクセスの枠組みCaP-Xを提示する。中核となるのはCaP-Gymであり、エージェントが知覚と制御のプリミティブを組み合わせるプログラムを合成して実行することでロボットを制御する、インタラクティブな環境である。この基盤の上に、CaP-Benchは、抽象度、相互作用、知覚的な基盤づけ(perceptual grounding)のさまざまな水準にわたって、最先端の言語モデルおよび視覚-言語モデルを評価する。12のモデルにわたる分析により、CaP-Benchは一貫した傾向を明らかにする。すなわち、人が作り込んだ抽象化があると性能は向上するが、それらの事前知識(prior)を取り除くと性能は低下し、設計者による足場(designer scaffolding)への依存が露呈する。同時に、このギャップは、エージェントのテスト時の計算をスケールすることで緩和できることも観察される。具体的には、多段階の対話(multi-turn interaction)、構造化された実行フィードバック、視覚的差分(visual differencing)、自動的な技能合成(automatic skill synthesis)、およびアンサンブルによる推論(ensembled reasoning)を通じて、エージェントが低レベルのプリミティブ上で動作している場合でさえ、堅牢性が大幅に向上する。これらの知見により、訓練なしで動作する枠組みCaP-Agent0を導出でき、シミュレーションおよび実際の身体化(real embodiments)の複数の操作タスクにおいて、人間レベルの信頼性を回復することが可能となる。さらに私たちはCaP-RLを導入し、検証可能な報酬を伴う強化学習が成功率を改善し、最小限のギャップでsim2realからの転移を実現することを示す。合わせて、CaP-Xは、身体化されたコーディング・エージェントを前進させるための、原理に基づくオープンアクセスのプラットフォームを提供する。