要旨: 現実世界の産業検査では、不良を局所化するだけでなく、それらを自然言語で説明し、制御された不良編集を生成することも必要です。しかし、既存の手法では、これら3つの能力を統一的な枠組みと評価プロトコルの中で同時に扱うことができていません。そこで本研究では、IAD-Unifyを提案します。IAD-Unifyは、デュアルエンコーダの統一フレームワークであり、凍結したDINOv2ベースの領域エキスパートが、軽量なトークン注入によって共有されたQwen3.5-4Bの視覚言語バックボーンへ正確な異常エビデンスを供給します。これにより、異常セグメンテーション、領域に根ざした理解、マスク誘導による生成を共同で可能にします。統一された評価を可能にするため、さらにAnomaly-56Kという包括的な統一マルチタスクIAD評価プラットフォームを構築します。Anomaly-56Kは、24カテゴリにわたる59,916枚の画像と104の不良バリアントを含みます。制御されたアブレーション実験により、4つの知見が得られました。(i) 領域グラウンディングは理解における決定的なメカニズムであり、それを取り除くと位置精度が>76 pp低下します。(ii) 予測された領域の性能はオラクルと非常に近く、実運用可能性が確認されます。(iii) 領域に根ざした生成は、全画像の忠実度とマスク領域の知覚品質の両方で最良となります。(iv) 事前初期化された共同学習は、生成コストをほとんど増やさずに理解を改善します(-0.16 dB)。IAD-Unifyはさらに、MMADベンチマークにおいても強い性能を示し、学習中に見たことのないカテゴリを含みながら、カテゴリをまたいだ頑健な汎化を実証しています。
IAD-Unify:産業異常セグメンテーション、理解、生成のための地域に根ざした統一モデル
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- IAD-Unifyは、1つのアーキテクチャと同一の評価設定の下で、産業異常セグメンテーション、地域に根ざした自然言語理解、制御された欠陥編集生成を同時に支える提案のデュアルエンコーダ統一視覚-言語フレームワークである。
- この手法では、凍結したDINOv2ベースの地域エキスパートを用いて、軽量なトークン注入により共有されたQwen3.5-4Bの視覚-言語バックボーンへ精密な異常エビデンスを提供し、マスク誘導付きの生成を可能にする。
- タスク間で比較を標準化するため、著者らはAnomaly-56Kという統一マルチタスク評価プラットフォームを導入しており、24カテゴリ・104種類の欠陥バリアントにまたがる59,916枚の画像を収録している。
- 実験結果から、地域グラウンディングは理解にとって重要であることが示され(これを取り除くと位置精度が76ポイント以上低下)、地域に根ざした生成は、全画像の忠実度と、マスク領域の知覚品質の両方を改善する。
- IAD-UnifyはMMADベンチマークでも強い性能を示し、学習中に見られていないカテゴリへの一般化も確認されており、堅牢なカテゴリ横断転移が示唆される。

