要旨: RGB-3Dマルチモーダルデータに基づく産業異常検出は、インテリジェントな品質検査のための主流パラダイムとして登場してきました。しかし、既存の教師なし手法には2つの重要な制限があります。すなわち、高レベルなセマンティック指導が欠如していることによって生じる曖昧なクロスモーダル整合と、RGBから3Dへの特徴マッピングに対する幾何学的モデリングの不足です。これらの課題に対処するために、テキストの意味(セマンティクス)に導かれた統一的なマルチモーダル産業異常検出フレームワークを提案します。このフレームワークは2つの主要モジュールで構成されます。すなわち、モダリティ変換の間に幾何学的構造を保持するための「幾何学認識クロスモーダル・マッパー」と、意味的な事前知識に従ってマルチモーダル特徴を整合させるための「オブジェクト条件付きテキスト特徴アダプタ」です。さらに、マルチモーダル産業異常検出のための統一された学習パラダイムを確立し、1モデル1クラスという制約を破り、単一のモデルで多様なクラスにまたがって正確な異常検出を可能にします。MVTec 3D-ADおよびEyecandiesデータセットに対する大規模な実験により、本手法は教師なし設定における分類とローカライゼーションで最先端の性能を達成することを示します。
テキスト誘導マルチモーダル統合型 産業異常検知
arXiv cs.CV / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、RGB-3Dデータに対してテキストのセマンティクスを用いるマルチモーダル枠組みを提案し、既存の教師なし手法の問題を解決しようとする。
- 階層的な幾何構造をモダリティ変換時に保持するための「Geometry-Aware Cross-Modal Mapper」と、意味的な事前知識に基づいてマルチモーダル特徴を整合させる「Object-Conditioned Textual Feature Adaptor」を中核モジュールとして設計する。
- 通常の「1モデル1クラス」制約を打ち破り、単一モデルで多様なクラスにまたがって異常検知を可能にする統一学習パラダイムも提案している。
- MVTec 3D-ADおよびEyecandiesの実験により、教師なし設定で分類と位置推定の両方において最先端性能を達成したことを示す。



