Cov2Pose: 空間共分散を活用した直接的かつ多様体を意識した6自由度物体姿勢推定

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Cov2Poseを導入します。Cov2Poseは、特徴の空間的2次統計を捉える共分散プール表現を利用した、直接的なエンドツーエンドの6自由度物体姿勢推定器です。
姿勢をコレスキー分解を介してSPD（対称正定値行列）としてエンコードし、SPD幾何を尊重する多様体対応ヘッドで回帰することを提案します。
二次順序プーリングと連続的なSPD表現が、部分遮蔽下において従来の直接ヘッドよりも頑健性と精度を向上させることを示します。
エンドツーエンドのパイプラインが有効であることを示す実験とアブレーション研究があり、間接的な2Dキーポイント＋PnPアプローチと比較して効率上の利点を提供できる可能性を示しています。

概要：本論文では、単一のRGB画像からの6自由度（6-DoF）物体姿勢推定の問題に取り組みます。通常、中間の2Dキーポイントを予測し、それに続いてPerspective-n-Pointソルバーを用いる間接的手法は高い性能を示してきました。エンドツーエンドで姿勢を回帰する直接法は、通常計算効率が高いが精度は低いです。しかし、直接ヘッドは全局的にプーリングされた特徴に依存し、姿勢予測における情報量が多いにもかかわらず、空間的2次統計を無視します。ほとんどの場合、頑健性を欠く不連続なポーズ表現を予測します。本研究では、畳み込み特徴分布を対称正定値（SPD）行列として符号化する共分散プーリング表現を提案します。さらに、Cholesky分解を介してSPD行列の形で新しいポーズエンコーディングを提案します。ポーズは、SPD行列のリーマン幾何学を考慮した多様体対応ネットワークヘッドを用いてエンドツーエンドで回帰されます。実験およびアブレーションは、2次プーリングと連続表現が直接的なポーズ回帰に有用であることを一貫して示しており、部分的な遮蔽下でもその有効性を示しています。

返却形式: {"translated": "翻訳されたHTML"}

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

Cov2Pose: 空間共分散を活用した直接的かつ多様体を意識した6自由度物体姿勢推定

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer