動的環境における汎用化可能なロボットマニピュレーションに向けて

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VLAモデルは、主に動的マニピュレーションのデータセットが限られていることと、単一フレームの観測に依存しているために時空間推論が弱まることから、動的環境でのロボットマニピュレーション課題において性能が低いことがわかる。
本論文は、35のタスクからなる大規模データセットおよびベンチマーク「DOMINO」を導入する。階層的な難易度設定、110K+のエキスパート軌跡、多次元の評価スイートを備え、汎用化可能な動的マニピュレーションを研究する。
動的タスクに対して既存のVLAシステムを評価し、動的認識を高めるための学習戦略を検証するとともに、動的データでの学習が静的マニピュレーションへの転移も改善し得ることを示す。
著者らは、PUMAとして、シーン中心の過去の光フローに加え、ワールド（環境）に関するクエリを用いるダイナミクスを意識したVLAアーキテクチャを提案する。これにより、オブジェクト中心の将来状態を短いホライズンで暗黙的に予測する。
PUMAは最先端の結果を達成し、ベースラインに対して成功率を絶対値で6.3%向上させる。著者らはGitHubを通じてコードとデータを公開している。