マルチエンボディド把持エージェントに向けて

arXiv cs.RO / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、把持対象の幾何学とロボットの運動学的構造を活用し、暗黙の学習だけに依存せずに異なるグリッパ設計へ汎化するマルチエンボディド把持エージェントを目指しています。
  • データ効率の高いフローベースかつ等変な(equivariant)把持合成アーキテクチャを提案し、グリッパ種別や自由度が異なってもグリッパとシーンの幾何情報のみで必要な情報を推定できるとしています。
  • モジュールをすべてJAX上でゼロから実装し、シーン・グリッパ・把持姿勢にまたがるバッチング機能により、学習の安定化、性能向上、推論の高速化を実現したと報告しています。
  • 付随するデータセットは多様で大規模で、ヒト型ハンドから並列ヨーグリッパまでを含み、25,000シーンと2,000万把持を収録しています。

要旨: マルチエンボディメント・グラスピングは、さまざまなグリッパ設計にわたって汎用的なふるまいを示すアプローチの開発に焦点を当てています。既存の手法では、多くの場合、ロボットの運動学的構造を暗黙に学習しますが、必要な大規模データを調達することの難しさにより課題に直面しています。本研究では、データ効率に優れた、フローベースの、等変な把持(グラスプ)合成アーキテクチャを提案します。このアーキテクチャは、自由度の異なる条件を含めてさまざまなグリッパ種を扱うことができ、基となる運動学モデルをうまく活用し、グリッパとシーンの幾何学情報だけから必要なすべての情報を推定します。従来の等変な把持手法とは異なり、我々はすべてのモジュールをゼロからJAXへ移植し、シーン、グリッパ、把持(グラスプ)に対するバッチ処理機能を備えたモデルを提供します。その結果、学習がより滑らかになり、性能が向上し、推論時間が高速化されます。今回のデータセットには、人型の手から平行ヨーグリッパまでの範囲のグリッパが含まれ、25,000シーンと2,000万の把持(グラスプ)を収録しています。