V-CAGE:ロボットマニピュレーション向けの、ビジョン・クローズドループ・エージェント生成エンジン

arXiv cs.RO / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • V-CAGEは、自律的なロボット向けデータ合成のためのエージェント型フレームワークであり、生成したシーンが意味論的に一貫していてかつ物理的に到達可能であることを維持しながら、Vision-Language-Action(VLA)訓練のスケール化を目指します。
  • これは、インペインティングに導かれたシーン構築を用いて、文脈に適応したレイアウト構造のある環境を作り、到達不可能な目標位置に起因するタスク失敗を低減します。
  • システムは、軌道の正しさを検証し、サイレントな失敗が波及する前にフィルタするために、ビジョン・ランゲージモデルのクローズドループ「ビジュアル・クリティック」と、機能メタデータを統合します。
  • 大規模な動画データセットの保存コストに対処するために、V-CAGEは知覚に基づく圧縮手法を導入しており、下流のVLA訓練の有効性を損なうことなく、ファイルサイズを90%超削減できると報告されています。

要旨: 視覚-言語-行動(VLA)モデルのスケーリングには、意味論的に一貫していると同時に物理的に実現可能な、巨大なデータセットが必要です。しかし、既存のシーン生成手法はしばしば文脈認識に欠けており、豊富な意味情報を埋め込んだ高忠実度な環境を合成しにくいという問題があります。その結果、目標位置に到達できないことが頻繁に起こり、タスクが早期に失敗する原因になります。本稿では、自律ロボットデータ合成のためのエージェント型フレームワークであるV-CAGE(Vision-Closed-loop Agentic Generation Engine)を提案します。従来のスクリプト化されたパイプラインとは異なり、V-CAGEは体に備わったエージェント型システムとして動作し、基盤モデルを活用して、高レベルの意味論的推論と低レベルの物理的相互作用を橋渡しします。具体的には、文脈に応じたレイアウトを体系的に配置するためのInpainting-Guided Scene Construction(インペインティング誘導シーン構築)を導入し、生成されるシーンが意味論的に構造化されるだけでなく、運動学的にも到達可能であることを保証します。軌跡の正しさを確実にするために、機能メタデータを、視覚-言語モデルに基づく閉ループ検証メカニズムと統合します。これは視覚的な批評者として働き、静かな失敗を厳密に排除し、エラー伝播の連鎖を断ち切ります。最後に、巨大なビデオデータセットの保存ボトルネックを克服するために、知覚駆動型の圧縮アルゴリズムを実装し、下流のVLA学習の有効性を損なうことなく、90%超のファイルサイズ削減を達成します。意味論的レイアウト計画と視覚的自己検証を一元化することで、V-CAGEはエンドツーエンドのパイプラインを自動化し、多様で高品質なロボット操作データセットを、高いスケーラビリティで合成できるようにします。