GroundingAnomaly: 少数ショット向け異常合成のための空間的グラウンディング拡散

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、異常サンプルが乏しい産業品質管理における視覚異常検査の改善を目的とした、少数ショット向け異常合成フレームワーク「GroundingAnomaly」を提案する。
  • 合成異常が現れる位置を正確に制御するために、ピクセル単位の意味マップを用いる「Spatial Conditioning Module(空間条件付けモジュール)」を導入する。
  • 凍結したU-Netに対して、ゲート付き注意(gated attention)層を通じて条件トークンを注入する「Gated Self-Attention Module(ゲート付き自己注意モジュール)」を提案し、学習済みの事前知識(プリミティブ)を維持しつつ、安定した少数ショット適応を可能にする。
  • MVTec AD および VisA における実験により、GroundingAnomaly は高品質な異常画像を生成し、下流の異常検出・セグメンテーション・インスタンスレベル検出タスクにおいて最先端の結果を達成することを示す。

Abstract

The performance of visual anomaly inspection in industrial quality control is often constrained by the scarcity of real anomalous samples. Consequently, anomaly synthesis techniques have been developed to enlarge training sets and enhance downstream inspection. However, existing methods either suffer from poor integration caused by inpainting or fail to provide accurate masks. To address these limitations, we propose GroundingAnomaly, a novel few-shot anomaly image generation framework. Our framework introduces a Spatial Conditioning Module that leverages per-pixel semantic maps to enable precise spatial control over the synthesized anomalies. Furthermore, a Gated Self-Attention Module is designed to inject conditioning tokens into a frozen U-Net via gated attention layers. This carefully preserves pretrained priors while ensuring stable few-shot adaptation. Extensive evaluations on the MVTec AD and VisA datasets demonstrate that GroundingAnomaly generates high-quality anomalies and achieves state-of-the-art performance across multiple downstream tasks, including anomaly detection, segmentation, and instance-level detection.