CaP-X: ロボット操作のためのコーディング・エージェントをベンチマークし改善するためのフレームワーク
arXiv cs.RO / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、身体性のあるロボット操作に対する「Code-as-Policy(コード=方策)」型コーディングエージェントをベンチマークし改善するための、オープンアクセスのフレームワークCaP-Xを提案する。
- 中核となるコンポーネントであるCaP-Gymは、知覚と制御のプリミティブを組み合わせたプログラムを合成し実行することで、エージェントがロボットを操作できるインタラクティブ環境を提供する。
- CaP-Benchを用いて、著者らは12の最先端の言語/視覚言語モデルを評価し、人間が作成した抽象化により性能が向上する一方、そうした事前知識(プリア)を取り除くと性能が低下することを見出し、設計者による足場(スキャフォールド)への依存性を示している。
- 本研究は、テスト時計算のスケーリングによって頑健性を改善できることを示し(例:マルチターンの相互作用、構造化された実行フィードバック、視覚差分、スキル合成、アンサンブル)、複数タスクで人間レベルの信頼性を達成するトレーニング不要の手法としてCaP-Agent0を提案する。
- さらにCaP-RLも提案しており、検証可能な報酬を伴う強化学習が成功率を改善し、小さなギャップでより良いシミュレーションから現実への移転(sim-to-real transfer)を可能にすることを示す。
