AI Navigate

MIRAGE: モデル非依存の産業用現実的異常生成と視覚的異常検出の評価

arXiv cs.CV / 2026/3/17

💬 オピニオンTools & Practical UsageModels & Research

要点

  • MIRAGE は、トレーニングや実際の異常画像を必要とせず、現実的な産業用異常と対応するピクセルレベルのマスクを生成できる、完全自動・モデル非依存のパイプラインです。
  • API 呼び出しを介して任意の生成モデルをブラックボックスとして利用し、ビジョン-言語モデルを使って欠陥プロンプトを自動生成し、CLIP ベースの品質フィルタを適用して、適切に整合した出力のみを保持します。
  • トレーニング不要の軽量なデュアルブランチのセマンティック変化検出モジュールは、テキスト条件付き Grounding DINO 特徴と、精細な YOLOv6-Seg 特徴を組み合わせて、規模に応じたマスクを生成します。
  • このアプローチは、MVTec AD および VisA を対象に、下流の異常セグメンテーションと生成画像品質の評価という二つのタスクでベンチマークされ、IS および IC-LPIPS などの指標と、31 名の参加者による人間の知覚調査(計 1,550 投票)を用いて評価されています。
  • さらに、著者らは MVTec AD と VisA にまたがる 13,000 枚を超える画像とマスクのペアの大規模データセットと、生成プロンプトおよびパイプラインコードを公開し、実データの欠陥情報がなくても異常検知を支援する産業検査を提供します。

要旨: 産業用ビジュアル異常検知(VAD)手法は通常、正常サンプルのみで訓練されますが、限られた異常データが利用可能なだけで性能が大幅に向上します。従来の異常生成アプローチは実際の異常例を必要とするもの、あるいは高価なハードウェアを要求するもの、または現実味を欠く合成欠陥を生み出すもののいずれかです。私たちは MIRAGE(Model-agnostic Industrial Realistic Anomaly Generation and Evaluation)を提示します。トレーニングや異常画像を必要とせず、現実的な異常画像生成とピクセルレベルのマスク作成を実現する完全自動化パイプラインです。私たちのパイプラインは API 呼び出しを介して任意の生成モデルをブラックボックスとしてアクセスし、VLM を用いて自動的に欠陥プロンプトを生成し、適切に整列した生成画像のみを保持する CLIP ベースの品質フィルターを含みます。規模拡大のためのマスク生成には、テキスト条件付き Grounding DINO 特徴と高精細な YOLOv6-Seg 構造特徴を組み合わせた、トレーニング不要の軽量な二分岐セマンティックチェンジ検出モジュールを導入します。Gemini 2.5 Flash Image(Nano Banana)を生成バックボーンとして用い、MVTec AD および VisA で 2 つの異なるタスク:(i)下流の異常セグメンテーション、(ii)生成画像の視覚品質を評価するために、4 つの生成手法をベンチマークします。標準指標(IS、IC-LPIPS)と、31 名の参加者と 1,550 ペアワイズ投票を含む人間の知覚調査を用いて評価します。結果は、MIRAGE が現実の欠陥データを必要とせず、異常検知対応の産業検査のためのスケーラブルでアクセスしやすい基盤を提供することを示しています。最後の貢献として、MVTec AD および VisA の各クラスについてカテゴリごとに500 枚の画像-マスクペアを含む大規模データセットを公開し、全体で 13,000 ペア以上を提供します。生成プロンプトとパイプラインコードも併せて公開します。