SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving

arXiv cs.CV / 4/10/2026

📰 NewsSignals & Early TrendsModels & Research

Key Points

  • SearchADを提案し、11の既存自動運転関連データセットから抽出した42.3万超のフレームと、90の稀少カテゴリに対する513k超のバウンディングボックス手動注釈を提供しています。
  • 「針の穴」問題(極めて少ない出現回数のクラスを効率よく発見すること)に焦点を当て、少数回(50回未満など)しか現れない稀少クラスのセマンティック検索を主眼としたデータ分割を設計しています。
  • インスタンス単位の検索ベンチマークではなく、意味ベースの画像検索としてテキスト-画像/画像-画像検索、少数ショット学習、多モーダル検索モデルの微調整に対応できるようにしています。
  • 評価では、テキストベース手法が画像ベースより優れることが示され、空間の視覚特徴と外言語を直接整合させる方法がゼロショットで最良の結果を出す一方、絶対的な検索性能は依然として不十分であると報告されています。
  • 公開ベンチマークサーバでのホールドアウトテストを含め、検索・検索駆動型のデータキュレーションや長尾(long-tail)知覚研究のための大規模データセットとして位置付けられています。

Abstract

Retrieving rare and safety-critical driving scenarios from large-scale datasets is essential for building robust autonomous driving (AD) systems. As dataset sizes continue to grow, the key challenge shifts from collecting more data to efficiently identifying the most relevant samples. We introduce SearchAD, a large-scale rare image retrieval dataset for AD containing over 423k frames drawn from 11 established datasets. SearchAD provides high-quality manual annotations of more than 513k bounding boxes covering 90 rare categories. It specifically targets the needle-in-a-haystack problem of locating extremely rare classes, with some appearing fewer than 50 times across the entire dataset. Unlike existing benchmarks, which focused on instance-level retrieval, SearchAD emphasizes semantic image retrieval with a well-defined data split, enabling text-to-image and image-to-image retrieval, few-shot learning, and fine-tuning of multi-modal retrieval models. Comprehensive evaluations show that text-based methods outperform image-based ones due to stronger inherent semantic grounding. While models directly aligning spatial visual features with language achieve the best zero-shot results, and our fine-tuning baseline significantly improves performance, absolute retrieval capabilities remain unsatisfactory. With a held-out test set on a public benchmark server, SearchAD establishes the first large-scale dataset for retrieval-driven data curation and long-tail perception research in AD: https://iis-esslingen.github.io/searchad/