Pickalo:低コストな産業用ビンピッキングのための6Dポーズ推定の活用

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Pickaloは、低コストのセンシング機器(手首装着型RGB-Dカメラとステレオ深度処理)のみを用いて、重いクラッタや遮蔽がある実際の産業環境を対象とする、モジュール式のビンピッキング処理パイプラインである。
  • 本システムはBridgeDepthによって生のステレオ映像を改良し、フォトリアルな合成データのみで学習したMask-RCNNモデルにより物体をセグメンテーションし、ゼロショットのSAM-6D手法により6Dポーズを推定する。
  • ポーズバッファモジュールは、物体の対称性を考慮しつつ、時間をまたいだ複数視点の観測を融合してポーズノイズを低減し、連続運転時の安定性を高める。
  • 掴み取りのためにPickaloは、大規模なアンチポダル(対向把持)候補集合を事前にオフラインで計算し、ユーティリティに基づくランキングにより把持をオンラインで選択する。加えて高速な衝突チェックを行う。
  • UR5e(パラレルジョーグリッパ、Intel RealSense D435i)での実験では、最大で1時間あたり600回の平均ピックを達成し、把持成功率は96〜99%であった。さらに、30分間の運転にわたって頑健な性能を示し、アブレーションにより改良された深度推定とポーズバッファの有用性が確認された。

要旨: 実環境でのビンピッキングは、深刻な散らかり、遮蔽、そして従来の3Dセンシング構成が高価であることにより、依然として困難です。私たちは、低コストなハードウェアのみで構築したモジュール式の6Dポーズに基づくビンピッキング手順であるPickaloを提案します。手首に装着したRGB-Dカメラが複数の視点から能動的にシーンを探索し、一方で、生のステレオ映像はBridgeDepthによって処理され、正確な衝突推論に適した洗練された深度マップを取得します。物体インスタンスは、フォトリアルな合成データのみに基づいて学習したMask-RCNNモデルでセグメントし、ゼロショットSAM-6Dポーズ推定器によって局在化します。ポーズバッファモジュールは、時間にわたって複数視点の観測を融合し、物体の対称性を扱い、ポーズノイズを大幅に低減します。オフラインでは、物体ごとに多数のアンチポダル把持候補を生成し、厳選します。オンラインでは、把持計画のために、効用ベースのランキングと高速な衝突チェックが照会されます。UR5e(平行爪グリッパおよびIntel RealSense D435i)に実装したPickaloは、最大で1時間あたり600回の平均ピックを達成し、把持成功率96-99%を実現し、密に充填されたユーロボックス上で30分間の連続運転にわたって頑健な性能を示します。アブレーション研究により、強化された深度推定と、長期安定性および実環境の産業条件におけるスループット向けのポーズバッファの有益性が実証されています。動画は https://mesh-iit.github.io/project-jl2-camozzi/ で公開されています。