Cov2Pose: 空間共分散を活用した直接的かつ多様体を意識した6自由度物体姿勢推定

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Cov2Poseを導入します。Cov2Poseは、特徴の空間的2次統計を捉える共分散プール表現を利用した、直接的なエンドツーエンドの6自由度物体姿勢推定器です。
  • 姿勢をコレスキー分解を介してSPD(対称正定値行列)としてエンコードし、SPD幾何を尊重する多様体対応ヘッドで回帰することを提案します。
  • 二次順序プーリングと連続的なSPD表現が、部分遮蔽下において従来の直接ヘッドよりも頑健性と精度を向上させることを示します。
  • エンドツーエンドのパイプラインが有効であることを示す実験とアブレーション研究があり、間接的な2Dキーポイント+PnPアプローチと比較して効率上の利点を提供できる可能性を示しています。

概要:本論文では、単一のRGB画像からの6自由度(6-DoF)物体姿勢推定の問題に取り組みます。通常、中間の2Dキーポイントを予測し、それに続いてPerspective-n-Pointソルバーを用いる間接的手法は高い性能を示してきました。エンドツーエンドで姿勢を回帰する直接法は、通常計算効率が高いが精度は低いです。しかし、直接ヘッドは全局的にプーリングされた特徴に依存し、姿勢予測における情報量が多いにもかかわらず、空間的2次統計を無視します。ほとんどの場合、頑健性を欠く不連続なポーズ表現を予測します。本研究では、畳み込み特徴分布を対称正定値(SPD)行列として符号化する共分散プーリング表現を提案します。さらに、Cholesky分解を介してSPD行列の形で新しいポーズエンコーディングを提案します。ポーズは、SPD行列のリーマン幾何学を考慮した多様体対応ネットワークヘッドを用いてエンドツーエンドで回帰されます。実験およびアブレーションは、2次プーリングと連続表現が直接的なポーズ回帰に有用であることを一貫して示しており、部分的な遮蔽下でもその有効性を示しています。

返却形式: {"translated": "翻訳されたHTML"}