大規模ユニバーサル欠陥生成:基盤モデルとデータセット

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の少数ショット手法におけるペア欠陥編集データの不足という課題を克服するため、複数のドメインにわたる 300K 規模の正常/異常/マスク/キャプションの4つ組(quadruplets)からなる大規模データセット UDG を導入する。
  • さらに、UniDG という欠陥生成のためのユニバーサルな基盤モデルを提示する。UniDG は、参照(reference)に基づく生成と、テキストによる指示(text instruction)に基づく欠陥編集の両方を、カテゴリごとの微調整なしでサポートする。
  • UniDG は、適応的な欠陥クロッピング(defect cropping)と、構造化された「ダイプティクス(diptych)」の入力形式を用いる Defect-Context Editing を採用する。さらに、MM-DiT のマルチモーダル・アテンションによって参照条件とターゲット条件を融合する。
  • 多様性を高めるとともに、参照条件に対する現実味(realism)と一貫性(consistency)も向上させるため、二段階の学習アプローチ(Diversity-SFT の後に Consistency-RFT)を用いる。
  • MVTec-AD と VisA での実験により、UniDG が既存の少数ショット異常生成および画像挿入/編集のベースラインを上回り、さらに下流の異常検出/ローカライズも改善することが示される。
  • 著者らは、指定された GitHub リポジトリでコードを公開する予定である。

概要: 既存の欠陥/異常生成手法は、多くの場合、少数ショット学習に依存していますが、大規模なペア欠陥編集データが不足しているため、特定の欠陥カテゴリに過適合しがちです。この問題は、欠陥のスケールや形態に大きなばらつきがあることでさらに悪化し、その結果、汎化能力が限定的になり、現実味が損なわれ、カテゴリ一貫性も低下します。私たちはこれらの課題に対し、さまざまな領域にまたがる30万件の正常/異常マスク/キャプションのクアドラプルからなる大規模データセットUDGを導入し、さらに、カテゴリごとの微調整を必要とせずに、参照ベースの欠陥生成とテキストによる指示ベースの欠陥編集の両方をサポートするユニバーサル欠陥生成基盤モデルUniDGを提案します。UniDGは、適応的な欠陥のクロッピングと、構造化されたディプティクス(diptych)入力形式によって欠陥コンテキスト編集を行い、MM-DiTマルチモーダル注意によって参照条件とターゲット条件を融合します。二段階の学習戦略(Diversity-SFTの後にConsistency-RFT)により、多様性をさらに向上させつつ、現実味と参照整合性も高めます。MVTec-ADおよびVisAでの大規模な実験により、UniDGは合成品質および下流の単一クラス/複数クラスの異常検出・ローカライズにおいて、従来の少数ショット異常生成や画像挿入/編集のベースラインよりも優れていることが示されます。コードはhttps://github.com/RetoFan233/UniDGで公開されます。