SynSur:合成産業用表面欠陥の生成と検出のためのエンドツーエンド生成パイプライン

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、産業用の欠陥検出におけるボトルネックが多くの場合モデルの能力ではなく、ラベル付き欠陥データの不足に起因する点を示し、合成データ生成を動機づけます。
  • ビジョン・言語モデルによるプロンプト、LoRAで適応した拡散モデル、マスク誘導のインペインティング、さらに自動ラベル導出とサンプルのフィルタリングを組み合わせたエンドツーエンドのパイプラインを提案します。
  • ボールねじ駆動部のピッティング欠陥データセットでの実験に加え、モバイル画面表面欠陥のセグメンテーション(MSD)データセットへのクロスドメイントライアルを行い、欠陥検出性能だけでなく、現実的で有用な合成サンプルを生む工程を分析します。
  • YOLOv26、YOLOX、LW-DETRを用いた結果では、合成のみで学習しても実データの代替にはならない一方、合成と実データを併用すると性能を維持でき、条件によっては小幅な改善が得られることが示されます。
  • 著者らは、拡散ベースの合成欠陥生成の価値は限られた実データセットを強化することにあり、転移ではドメイン適応と注釈品質管理が重要であると結論づけています。

Abstract

学習ベースの産業用欠陥検出におけるボトルネックは、多くの場合モデルの容量不足ではなく、ラベル付き欠陥データの不足によって生じます。欠陥は稀であり、アノテーションは高価で、バランスの取れた学習データセットの収集は遅いのです。 本稿では、合成欠陥生成とアノテーションのためのエンドツーエンドのパイプラインを提示します。具体的には、Vision-Language-Model(視覚と言語モデル)ベースのプロンプト、LoRAに適応した拡散、マスク誘導のインペインティング、そして自動ラベル導出を伴うサンプルのフィルタリングを組み合わせます。さらに、現実的な合成サンプルによって現実データの可能性を示し、データ不足を克服できることを示します。評価はまず、ボールねじ駆動装置におけるピッティング欠陥からなる、困難なデータセットで行い、その後、携帯電話の画面表面欠陥セグメンテーションデータセット(MSD)の一部に対して行い、ドメイン間の転移をテストします。下流の検出器性能に加えて、プロンプト構築、LoRAの選択、DreamSimとCLIPScoreによるサンプルフィルタリングといった、パイプラインの主要段階を分析し、どの合成サンプルが現実的であり、かつ有用であるかを理解します。YOLOv26、YOLOX、LW-DETRを用いた実験では、合成のみの学習は実データの代替にはならないことが示されます。実データと組み合わせると、合成欠陥は性能を維持でき、選択したBSDataの学習レジームにおいて控えめな改善が得られます。MSDの転移研究では、パイプライン全体の構造が2つ目の産業用検査ドメインにも引き継がれることが示されます。一方で、ドメイン固有の適応とアノテーション品質の制御の重要性も明らかになります。総じて、本論文は拡散ベースの産業用欠陥合成に関するエンドツーエンドの評価を提供し、その最も強い価値は、実データの代替ではなく、希少な実データセットを強化する点にあることを示しています。