見えにくく、ラベルも付けにくい:微妙な視覚現象のための生成的およびシンボリックな獲得

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、微細な異常(ヘアラインのひび割れや微小な空隙、低コントラストの混入物など)に対して、一般的なアクティブラーニングの獲得指標が支配的な視覚パターンを過剰に選び、データ空間のまれで重要な領域を見落としやすい失敗モードに焦点を当てています。
  • GSALは、拡散ベースの難しさ推定と階層的なセマンティック被覆(カバレッジ)事前を組み合わせることで、物体検出向けにこの問題を解決するアクティブラーニング枠組みを提案します。
  • 拡散成分は、再構成の不一致(reconstruction discrepancy)とデノイズのばらつき(denoising variability)を用いて提案をスコアし、曖昧で典型から外れた例を優先的に取り込みます。
  • ただし拡散だけでは、難しいサンプルを支配的な意味(セマンティック)モード内で繰り返し選んでしまうため、GSALは3レベルのコンセプトグラフで未表現のセマンティック領域への獲得を促し、獲得理由も解釈可能にします。
  • 実験では、薄膜欠陥のプロプライエタリデータに加え、Pascal VOCおよびMS COCOでも、不確実性・多様性・ハイブリッドの各ベースラインに比べてラベル効率とレアクラスの回収性能が一貫して向上したことが示されています。

Abstract

ヘアラインクラック(髪の毛ほどの細い亀裂)、サブミリメートルの空隙、低コントラストの混入物といった微細な視覚的異常は、構造的には典型的でない一方で見た目としては紛らわしく、アノテーションが難しいだけでなく、アクティブラーニングの最中にも見落とされやすいです。識別的不確実性や特徴の多様性に基づく標準的な獲得(acquisition)ヒューリスティックは、しばしばデータ空間の中でまばらながら重要な領域を十分に探索せず、支配的なパターンを過剰に選択する傾向があります。この失敗モードは、工業製品の欠陥検査では特に深刻で、異常は発生頻度が低い可能性があるだけでなく、周囲の構造と見分けがつきにくい場合があります。これを解決するために、拡散ベースの難易度シグナルと階層的なセマンティック被覆(coverage)の事前知識を組み合わせた、物体検出のためのアクティブ・ラーニングフレームワークであるGSALを提案します。拡散コンポーネントは、再構成の不一致とノイズ除去のばらつきを用いて画像と提案(proposals)にスコアを付け、視覚的に典型から外れた、あるいは曖昧な例を優先します。しかし、拡散だけでは、優勢なセマンティック・モードの中にある難しいサンプルばかりを繰り返し獲得してしまうことを防げません。そこでセマンティック成分は、候補サンプルを3レベルの概念グラフに整理し、十分に表現されていないセマンティック領域の被覆を促進するとともに、解釈可能な獲得の理由(acquisition rationales)を提供します。視覚的な難しさとセマンティック被覆のバランスを取ることで、GSALは、不確実性のみの選択では見落とされがちな微妙で稀なターゲットの検索精度を改善します。独自の薄膜欠陥データセット、Pascal VOC、MS COCOデータセットでの実験では、不確実性、ダイバーシティ(多様性)、およびハイブリッドに基づくベースラインと比べて、ラベル効率と稀クラスの取得(rare-class retrieval)の双方で一貫した改善が示されました。