ビジョン基盤モデルによる少数ショット産業用オブジェクト検出のデカップルド・プロトタイプ・マッチング

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、追加された新しい物体に対して少数のラベル付き例しか用意できず、大規模アノテーション済みデータセットの維持コストが高いという「少数ショット産業用オブジェクト検出」の課題に取り組みます。
  • 提案手法は、ビジョン基盤モデルを用いて参照サンプルの少数セットから特徴抽出によりクラス・プロトタイプを構築する検出フレームワークです。
  • 推論時にはセグメンテーションモデルで物体領域を生成し、埋め込みを抽出して、保存したプロトタイプとの類似度マッチングを行います。
  • 3つの産業データセットで実験し(BOPベンチマークの公式2D検出プロトコルを使用)、トレーニング不要の最先端手法に対してAPを6.9%向上させるなど、競争力のある性能を示します。
  • この手法はCADモデルや大規模アノテーションを不要にし、数枚の参照画像だけで新しい物体のオンボーディングを可能にするため、現場の産業用途に適しています。

要旨: 工業用の物体検出システムは通常、大規模な注釈付きデータセットに依存しています。しかし、これらのデータセットの収集は高コストであり、物体の在庫が頻繁に変わる工業シナリオでは維持が困難です。本研究は、導入されたばかりの物体に対して利用可能なラベル付きサンプルが限られているような、こうした工業シナリオにおける少数ショット物体検出という課題に取り組みます。本研究では、最小限の教師なし(最小限の監督)で物体を認識するために、視覚基盤モデルを活用する検出フレームワークを提案します。本手法は、特徴表現を抽出することで、少数の参照サンプルからクラス・プロトタイプを構築します。推論時の所定のクエリシーンでは、セグメンテーションモデルを用いて物体領域を生成し、特徴埋め込みを抽出して、類似度マッチングによりクラス・プロトタイプと照合します。本手法による検出を、6D物体姿勢推定ベンチマーク(Benchmark for 6D Object Pose Estimation)に基づく、確立された3つの工業データセットで評価します。評価は、公式の2D物体検出評価プロトコルに従って実施します。提案手法は競争力のある検出性能を示し、学習不要の最先端検出手法と比較してAPを6.9%向上させます。さらに、本手法はCADモデルや大規模な注釈付きデータセットを必要とせず、わずか数枚の参照画像のみで新しい物体をオンボーディング可能です。これらの特性により、本アプローチは現実の工業用途に適しています。