汎用的な小物体検出:ポイント・プロンプト型パラダイムとベンチマーク

arXiv cs.CV / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小物体検出における高品質データの長年にわたる不足に対処するための、大規模・マルチドメイン・データセット「TinySet-9M」を提案する。
  • 小物体に対するラベル効率的な検出手法を評価するためのベンチマークを確立し、その結果、弱い視覚的手がかりがラベル効率的アプローチの性能を著しく悪化させることを見出す。
  • 学習時の特徴強化に依存せずに意味表現を改善するため、著者らは推論時に疎なポイント・プロンプトを用いて、カテゴリレベルの位置特定を橋渡しする「Point-Prompt Small Object Detection(P2SOD)」を提案する。
  • P2SODおよびTinySet-9Mに基づき、本論文は、大規模データから頑健なプロンプト条件付き表現を学習する、スケーラブルで移植可能なポイント・プロンプト型フレームワーク「DEAL」を提示する。
  • DEALは、厳格な位置特定指標(例:AP75)において、完全教師ありのベースラインに対して相対的に31.4%の改善を達成し、さらに推論時に1クリックのみで未見のカテゴリやデータセットにも汎化する、とされている。

Abstract

小物体検出(SOD)は、画素数が極めて限られており、物体境界が曖昧であるため、いまだに困難です。これらの特性は、困難なアノテーション、大規模で高品質なデータセットの限られた利用可能性、そして小物体に対する本質的に弱いセマンティック表現をもたらします。本研究では、まずデータ上の制約に対処するために、小物体検出のための初の大規模かつマルチドメインのデータセットであるTinySet-9Mを導入します。大規模データセットのギャップを埋めるだけでなく、小物体に対する既存のラベル効率的検出手法の有効性を評価するためのベンチマークを確立します。評価の結果、弱い視覚的手がかりは、小物体検出におけるラベル効率的手法の性能低下をさらに悪化させることが明らかになり、ラベル効率的SODにおける重要な課題が浮き彫りになります。第二に、セマンティック表現が不十分であるという制約に取り組むために、学習時の特徴強化を超えて、新たなパラダイムであるPoint-Prompt Small Object Detection(P2SOD)を提案します。このパラダイムでは、推論時にスパースな点プロンプトを導入し、カテゴリレベルのローカライゼーションのための効率的な情報ブリッジとして機能させ、セマンティックな補強を可能にします。P2SODパラダイムと大規模なTinySet-9Mデータセットに基づいて、さらにDEAL(DEtect Any smalL object)を発展させます。DEALは、大規模データから堅牢で、プロンプト条件付けされた表現を学習する、スケーラブルで転移可能な点プロンプト付き検出フレームワークです。推論時に1回のクリックだけで、DEALはTinySet-9Mにおける厳密なローカライゼーション指標(例:AP75)で、完全教師ありのベースラインに対して相対的に31.4%の改善を達成し、未見のカテゴリや未見のデータセットにも効果的に汎化します。プロジェクトは https://zhuhaoraneis.github.io/TinySet-9M/ で公開されています。