マルチエンボディド把持エージェントに向けて

arXiv cs.RO / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、把持対象の幾何学とロボットの運動学的構造を活用し、暗黙の学習だけに依存せずに異なるグリッパ設計へ汎化するマルチエンボディド把持エージェントを目指しています。
データ効率の高いフローベースかつ等変な（equivariant）把持合成アーキテクチャを提案し、グリッパ種別や自由度が異なってもグリッパとシーンの幾何情報のみで必要な情報を推定できるとしています。
モジュールをすべてJAX上でゼロから実装し、シーン・グリッパ・把持姿勢にまたがるバッチング機能により、学習の安定化、性能向上、推論の高速化を実現したと報告しています。
付随するデータセットは多様で大規模で、ヒト型ハンドから並列ヨーグリッパまでを含み、25,000シーンと2,000万把持を収録しています。

要旨: マルチエンボディメント・グラスピングは、さまざまなグリッパ設計にわたって汎用的なふるまいを示すアプローチの開発に焦点を当てています。既存の手法では、多くの場合、ロボットの運動学的構造を暗黙に学習しますが、必要な大規模データを調達することの難しさにより課題に直面しています。本研究では、データ効率に優れた、フローベースの、等変な把持（グラスプ）合成アーキテクチャを提案します。このアーキテクチャは、自由度の異なる条件を含めてさまざまなグリッパ種を扱うことができ、基となる運動学モデルをうまく活用し、グリッパとシーンの幾何学情報だけから必要なすべての情報を推定します。従来の等変な把持手法とは異なり、我々はすべてのモジュールをゼロからJAXへ移植し、シーン、グリッパ、把持（グラスプ）に対するバッチ処理機能を備えたモデルを提供します。その結果、学習がより滑らかになり、性能が向上し、推論時間が高速化されます。今回のデータセットには、人型の手から平行ヨーグリッパまでの範囲のグリッパが含まれ、25,000シーンと2,000万の把持（グラスプ）を収録しています。

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

FastAPI × LangChain × MongoDB の使い方

Dev.to

【パターン】ちゃんと動くAIエージェントのエラーハンドリング

Dev.to

Oracle AI DatabaseでPythonを使ってONNX埋め込みワークフローを構築する方法

Dev.to

Green Habit Tracker：AIで小さな行動を本当のインパクトへ変える

Dev.to

マルチエンボディド把持エージェントに向けて

要点

関連記事

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

FastAPI × LangChain × MongoDB の使い方

【パターン】ちゃんと動くAIエージェントのエラーハンドリング

Oracle AI DatabaseでPythonを使ってONNX埋め込みワークフローを構築する方法

Green Habit Tracker：AIで小さな行動を本当のインパクトへ変える

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer