概要:本論文では、単一のRGB画像からの6自由度(6-DoF)物体姿勢推定の問題に取り組みます。通常、中間の2Dキーポイントを予測し、それに続いてPerspective-n-Pointソルバーを用いる間接的手法は高い性能を示してきました。エンドツーエンドで姿勢を回帰する直接法は、通常計算効率が高いが精度は低いです。しかし、直接ヘッドは全局的にプーリングされた特徴に依存し、姿勢予測における情報量が多いにもかかわらず、空間的2次統計を無視します。ほとんどの場合、頑健性を欠く不連続なポーズ表現を予測します。本研究では、畳み込み特徴分布を対称正定値(SPD)行列として符号化する共分散プーリング表現を提案します。さらに、Cholesky分解を介してSPD行列の形で新しいポーズエンコーディングを提案します。ポーズは、SPD行列のリーマン幾何学を考慮した多様体対応ネットワークヘッドを用いてエンドツーエンドで回帰されます。実験およびアブレーションは、2次プーリングと連続表現が直接的なポーズ回帰に有用であることを一貫して示しており、部分的な遮蔽下でもその有効性を示しています。
返却形式: {"translated": "翻訳されたHTML"}

