物体検出におけるタスク駆動型機能の先へ

arXiv cs.CV / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、近年の物体検出器におけるタスク最適化された特徴が、注釈の真の幾何や構造を捉え損ねる「ショートカット相関」を符号化し得ると主張する。
  • 注釈に導かれた特徴拡張の枠組みを提案し、注釈に導かれた潜在空間から密な空間特徴グリッドを構築し、それらを検出バックボーン内の特徴ピラミッドと融合する。
  • 領域提案(region proposal)および検出ヘッドに幾何情報に配慮した情報を注入することで、基盤となる注釈構造により適合する表現の生成を目指す。
  • 野生動物およびリモートセンシングのデータセットで、分類・位置特定・データ効率を、異なる教師あり設定(supervision regimes)にわたって評価する。
  • 結果は、対象への注目の改善、背景への感度の低下、タスク変更時や教師が疎な場合におけるより強い汎化を示している。

Abstract

現代の物体検出器が学習するタスク駆動型の特徴は、エンドタスクの損失を最適化しますが、多くの場合、基となる注釈構造を反映できない近道(shortcut)相関を捉えてしまいます。このような表現は、タスク定義が変わるときや教師データが乏しくなるとき、転移、解釈可能性、頑健性を制限します。本論文では、注釈に導かれた特徴拡張(feature augmentation)フレームワークを提案し、埋め込み(embeddings)を物体検出バックボーンに注入します。提案手法は、注釈に導かれた潜在空間から密な空間特徴グリッドを構築し、それを特徴ピラミッド表現と融合させることで、領域提案(region proposal)および検出ヘッドに影響を与えます。野生動物およびリモートセンシングのデータセットにまたがる実験により、複数の教師設定(supervision regimes)下で分類、局所化、およびデータ効率を評価します。結果は、物体への焦点が一貫して改善され、背景への感度が低下し、未見または弱教師付きタスクへの汎化がより強くなることを示しています。これらの知見は、特徴を注釈の幾何(geometry)に合わせることで、純粋にタスク最適化された特徴よりも、より意味のある表現が得られることを示しています。