大規模ユニバーサル欠陥生成：基盤モデルとデータセット

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来の少数ショット手法におけるペア欠陥編集データの不足という課題を克服するため、複数のドメインにわたる 300K 規模の正常／異常／マスク／キャプションの4つ組（quadruplets）からなる大規模データセット UDG を導入する。
さらに、UniDG という欠陥生成のためのユニバーサルな基盤モデルを提示する。UniDG は、参照（reference）に基づく生成と、テキストによる指示（text instruction）に基づく欠陥編集の両方を、カテゴリごとの微調整なしでサポートする。
UniDG は、適応的な欠陥クロッピング（defect cropping）と、構造化された「ダイプティクス（diptych）」の入力形式を用いる Defect-Context Editing を採用する。さらに、MM-DiT のマルチモーダル・アテンションによって参照条件とターゲット条件を融合する。
多様性を高めるとともに、参照条件に対する現実味（realism）と一貫性（consistency）も向上させるため、二段階の学習アプローチ（Diversity-SFT の後に Consistency-RFT）を用いる。
MVTec-AD と VisA での実験により、UniDG が既存の少数ショット異常生成および画像挿入／編集のベースラインを上回り、さらに下流の異常検出／ローカライズも改善することが示される。
著者らは、指定された GitHub リポジトリでコードを公開する予定である。

概要: 既存の欠陥／異常生成手法は、多くの場合、少数ショット学習に依存していますが、大規模なペア欠陥編集データが不足しているため、特定の欠陥カテゴリに過適合しがちです。この問題は、欠陥のスケールや形態に大きなばらつきがあることでさらに悪化し、その結果、汎化能力が限定的になり、現実味が損なわれ、カテゴリ一貫性も低下します。私たちはこれらの課題に対し、さまざまな領域にまたがる30万件の正常／異常マスク／キャプションのクアドラプルからなる大規模データセットUDGを導入し、さらに、カテゴリごとの微調整を必要とせずに、参照ベースの欠陥生成とテキストによる指示ベースの欠陥編集の両方をサポートするユニバーサル欠陥生成基盤モデルUniDGを提案します。UniDGは、適応的な欠陥のクロッピングと、構造化されたディプティクス（diptych）入力形式によって欠陥コンテキスト編集を行い、MM-DiTマルチモーダル注意によって参照条件とターゲット条件を融合します。二段階の学習戦略（Diversity-SFTの後にConsistency-RFT）により、多様性をさらに向上させつつ、現実味と参照整合性も高めます。MVTec-ADおよびVisAでの大規模な実験により、UniDGは合成品質および下流の単一クラス／複数クラスの異常検出・ローカライズにおいて、従来の少数ショット異常生成や画像挿入／編集のベースラインよりも優れていることが示されます。コードはhttps://github.com/RetoFan233/UniDGで公開されます。