画像ベースの動物検出にもう1つの次元を追加する

arXiv cs.CV / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼による動物検出の中核的な制限として、2Dバウンディングボックスではカメラに対する動物の3D姿勢を捉えられない点を扱う。
  • Skinned Multi Animal Linearモデルを用いて3Dバウンディングボックスを推定し、それを2D画像空間へ頑健な学習ラベルとして投影するラベリング・パイプラインを提案する。
  • 3Dから2Dへの投影および得られる教師信号の品質を高めるため、専用のカメラ姿勢(ポーズ)改良アルゴリズムを用いる。
  • さらに、キュービッド(直方体)面の可視性メトリクスを算出し、画像内で動物のどの側面が見えているかを定量化する。
  • Animal3Dデータセットでの実験により、異なる種や環境条件において高い性能が示され、単眼の3D動物検出のベンチマーク化へ向けた一歩として位置付けられる。

要旨: 動物の単眼画像化では、本質的に3D構造が2D投影に還元されます。検出アルゴリズムは2Dバウンディングボックスを生成しますが、これは動物のカメラに対する向きに関する情報を欠いています。RGB動物画像のための3D検出手法を構築するには、ラベル付きデータセットが不足しています。こうしたラベリング作業には、RGBデータに加えて3D入力ストリームが必要です。我々は、Skinned Multi Animal Linearモデルを利用したパイプラインを提示します。これにより3Dバウンディングボックスを推定し、専用のカメラ姿勢リファインメントアルゴリズムを用いて、それらを2D画像空間へ頑健なラベルとして投影します。動物のどの側面が捉えられているかを評価するために、キュボイド(直方体)の面の可視性指標を計算します。これらの3Dバウンディングボックスと指標は、将来の単眼3D動物検出アルゴリズムの開発およびベンチマークに向けた重要なステップとなります。我々はAnimal3Dデータセットで提案手法を評価し、種や設定をまたいで正確な性能を示します。