RoboClaw：スケーラブルな長期ロボティクス課題のためのエージェント型フレームワーク

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RoboClawは、VLM（Vision-Language-Action）ベースのロボティクスにおける長期（long-horizon）タスクのスケーリング課題に対し、データ収集・政策学習・実行を単一のVLM駆動コントローラで統合するエージェント型フレームワークを提案している。
政策レベルではEntangled Action Pairs（EAP）により、前進する操作行動と逆方向の回復行動を結合した自己リセットループを構成し、継続的なオンポリシーのデータ獲得と反復的な政策改善を、人の介入を最小化しながら実現する。
デプロイ時は同一エージェントが高レベルの推論を行い、学習済みのポリシープリミティブを動的にオーケストレーションして長期タスクを遂行する設計になっている。
収集と実行で文脈セマンティクスを一貫させることで、従来のフェーズ間不一致や複数ポリシーの脆さを低減し、実環境の操作タスクで成功率と人手削減の双方で改善を示している（成功率25%向上、人の時間投資53.7%削減）。

概要: ビジョン-言語-行動（VLA）システムは、言語主導のロボットによる操作に強い可能性を示してきました。しかし、それらを長い時間軸を持つタスクへスケールさせることは依然として困難です。既存のパイプラインは一般に、データ収集、方策学習、デプロイメントを分離しており、その結果として、手動による環境リセットへの依存が大きくなり、さらに脆弱な多方策（multi-policy）実行に直面します。我々は、データ収集、方策学習、タスク実行を単一のVLM駆動コントローラの下で統合するエージェント型ロボティクスの枠組みであるRoboClawを提示します。方策レベルでは、RoboClawはEntangled Action Pairs（EAP）を導入し、順方向の操作行動と、逆方向の回復行動を結び付けて、自律的なデータ収集のための自己リセット型ループを形成します。この仕組みにより、最小限の人間の介入で継続的なオンポリシー（on-policy）データ獲得と、反復的な方策の洗練（refinement）を可能にします。デプロイメント時には、同一のエージェントが高レベルの推論を行い、学習した方策プラミティブを動的にオーケストレーションして、長い時間軸を持つタスクを達成します。収集と実行の両フェーズにわたって文脈における意味論を一貫して維持することで、RoboClawは両者の不一致を低減し、多方策の頑健性を向上させます。実環境での操作タスクに関する実験では、従来のオープンループ型パイプラインと比較して、安定性とスケーラビリティが改善されることが示されています。さらに、ロボットのライフサイクル全体を通じて人間の負担を大幅に削減し、長時間軸タスクにおいてベースライン手法に対して成功率を25%向上させるとともに、人間の作業時間への投資を53.7%削減します。