AD-Copilot: 視覚的文脈内比較による産業用異常検知のビジョン-言語アシスタント

arXiv cs.CV / 2026/3/17

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

AD-Copilot は、産業用異常検知に特化した対話型のマルチモーダル言語モデルであり、視覚的文脈内比較を活用して、標準的な大規模マルチモーダル言語モデルを超える細部認識を実現する。
本論文は、希薄にラベル付けされた産業画像から検査知識を抽出するデータキュレーションパイプラインを通じて生成された、大規模マルチモーダルデータセット「Chat-AD」を紹介します。キャプション作成、VQA、欠陥局在化のためのデータセットです。
比較エンコーダを提示します。これは、対になった画像特徴間のクロスアテンションを用いて複数画像の比較を可能にし、ドメイン知識を注入する多段階のトレーニング戦略を備えています。
MMADベンチマークでは、AD-Copilot は 82.3% の精度を達成し、MMAD-BBox においてベースラインより最大で 3.35 倍の改善を達成します（データ漏洩なし）。
このアプローチは他のベンチマークにも一般化でき、いくつかの IAD タスクにおいて人間の専門家レベルを上回る性能を示しており、データセットとモデルは公開予定です。

Dev.to

THE DECODER

Reddit r/LocalLLaMA

Reddit r/LocalLLaMA

Reddit r/LocalLLaMA