MAPRPose:マスク対応の提案とアモーダル精錬による複数物体6D姿勢推定

arXiv cs.CV / 2026/4/23

📰 ニュース

要点

  • MAPRPoseは、複雑なシーンにおける複数物体6D姿勢推定のための新しい2段階フレームワークであり、激しい遮蔽とセンサノイズを対象としている。

Abstract

雑然としたシーンにおける6D物体姿勢推定は、深刻な遮蔽とセンサノイズにより、依然として難しい課題です。私たちはMAPRPoseを提案します。これは2段階の枠組みで、ポーズ提案のためのマスク対応(mask-aware correspondences)と、頑健なリファインメントのためのアモーダル駆動の領域(Region-of-Interest: ROI)予測を活用します。Mask-Aware Pose Proposal(MAPP)段階では、2D対応を3D空間へ持ち上げて信頼できるキーポイント対応を確立し、対応レベルのスコアリングに基づいて幾何学的に整合した姿勢仮説を生成します。そこから上位の top-K 候補を選択します。リファインメント段階では、アモーダルマスク予測およびROI再アラインメント(Amodal Mask Prediction and ROI Re-Alignment: AMPR)モジュールと統合された、テンソル化されたレンダー&比較(render-and-compare)パイプラインを導入します。完全な物体形状を再構成し、ROIを動的に調整することで、AMPRは重度の遮蔽下における局在化誤差や空間的なミスアラインメントを緩和します。さらに、GPUアクセラレーションされたRGB-XYZ再投影により、単一のフォワードパスで全ての N \times B 姿勢仮説を同時にリファインできます。BOPベンチマークで評価したところ、MAPRPoseは最先端の平均再現率(Average Recall: AR)である76.5%を達成し、FoundationPoseをARで3.1%上回りました。また、多物体推論において43倍の高速化も実現しています。