SearchAD: 自動運転のための大規模レア画像検索データセット

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • SearchADを提案し、11の既存自動運転関連データセットから抽出した42.3万超のフレームと、90の稀少カテゴリに対する513k超のバウンディングボックス手動注釈を提供しています。
  • 「針の穴」問題(極めて少ない出現回数のクラスを効率よく発見すること)に焦点を当て、少数回(50回未満など)しか現れない稀少クラスのセマンティック検索を主眼としたデータ分割を設計しています。
  • インスタンス単位の検索ベンチマークではなく、意味ベースの画像検索としてテキスト-画像/画像-画像検索、少数ショット学習、多モーダル検索モデルの微調整に対応できるようにしています。
  • 評価では、テキストベース手法が画像ベースより優れることが示され、空間の視覚特徴と外言語を直接整合させる方法がゼロショットで最良の結果を出す一方、絶対的な検索性能は依然として不十分であると報告されています。
  • 公開ベンチマークサーバでのホールドアウトテストを含め、検索・検索駆動型のデータキュレーションや長尾(long-tail)知覚研究のための大規模データセットとして位置付けられています。

要旨: 大規模データセットから希少で安全性に極めて重要な走行シナリオを取得することは、堅牢な自動運転(AD)システムを構築するうえで不可欠です。データセット規模が引き続き拡大するにつれ、主要な課題はより多くのデータを収集することから、最も関連性の高いサンプルを効率的に特定することへと移っています。本論文では、AD向けの大規模希少画像検索データセットであるSearchADを紹介します。SearchADは、11の確立されたデータセットから抽出した423kフレーム超を含む、ADのための大規模希少画像検索データセットです。SearchADは、90の希少カテゴリをカバーする513k件超のバウンディングボックスに対して高品質な手動アノテーションを提供します。これは、極めて希少なクラスを見つける「わらの中の針」問題を対象としており、あるクラスはデータセット全体で50回未満しか出現しません。既存のベンチマークがインスタンス単位の検索に焦点を当てていたのに対し、SearchADは、明確に定義されたデータ分割を備えたセマンティック画像検索を重視しています。これにより、テキストから画像への検索、画像から画像への検索、少数ショット学習、マルチモーダル検索モデルのファインチューニングが可能になります。包括的な評価により、内在的なセマンティックな基盤がより強いため、テキストベースの手法が画像ベースの手法を上回ることが示されます。空間の視覚的特徴を言語と直接整合させるモデルが最良のゼロショット結果を達成し、また提案するファインチューニングのベースラインが性能を大幅に向上させる一方で、絶対的な検索能力はなお不十分です。公開ベンチマークサーバ上で保持されたテストセットを用いて、SearchADはADにおける「検索駆動型のデータキュレーション」と「ロングテール知覚」研究のための、初の大規模データセットを確立します:https://iis-esslingen.github.io/searchad/