要旨: 人間の環境で行動することは、汎用ロボットにとって重要な能力であり、自然言語を確実に理解し、それを物理的な作業へ適用することが不可欠である。本論文は、視覚入力とテキスト入力を統合して正確なロボットの軌道を生成する、ビジョモータポリシーの枠組みの中で拡散モデルの能力を活用することを目指す。学習中に参照となるデモンストレーションを用いることで、モデルは、ロボットの直近の環境においてテキストによる指示によって指定される操作タスクを実行することを学習する。本研究は、改善された埋め込みを活用し、画像生成のための拡散モデルからの手法を適応することで、既存のモデルを拡張することを目的としている。提案手法をCALVINデータセットで評価し、さまざまな操作タスクにおいて性能が向上し、複数のタスクを連続して実行する際の長期ホライズン成功率が高まることを示す。我々のアプローチは、拡散モデルの有用性を補強し、汎用的なマルチタスク操作に向けた貢献となる。
EL3DD:言語条件付きマルチタスク操作のための拡張潜在3D拡散
arXiv cs.RO / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散モデルを用いて視覚とテキストを統合し、ロボットの操作軌道を生成する言語条件付きのビジュオモータ・ポリシー「EL3DD」を提案する。
- 学習では参照デモンストレーションを活用し、ロボットの目の前の環境に対して自然言語で指定された操作タスクを実行できるようにする。
- 既存手法を、埋め込み表現の改善と、画像生成で用いられてきた拡散モデル由来の技術の適用によって拡張する。
- CALVINデータセットでの評価では、複数の操作タスクにおける性能向上に加え、複数タスクを連続して行う長期(ロングホライズン)条件で成功率が高まることを示す。
- まとめとして、本手法は拡散モデルが言語指示下での汎用マルチタスクなロボット操作に有効であることを補強している。