AD-Copilot: 視覚的文脈内比較による産業用異常検知のビジョン-言語アシスタント
arXiv cs.CV / 2026/3/17
📰 ニュースIndustry & Market MovesModels & Research
要点
- AD-Copilot は、産業用異常検知に特化した対話型のマルチモーダル言語モデルであり、視覚的文脈内比較を活用して、標準的な大規模マルチモーダル言語モデルを超える細部認識を実現する。
- 本論文は、希薄にラベル付けされた産業画像から検査知識を抽出するデータキュレーションパイプラインを通じて生成された、大規模マルチモーダルデータセット「Chat-AD」を紹介します。キャプション作成、VQA、欠陥局在化のためのデータセットです。
- 比較エンコーダを提示します。これは、対になった画像特徴間のクロスアテンションを用いて複数画像の比較を可能にし、ドメイン知識を注入する多段階のトレーニング戦略を備えています。
- MMADベンチマークでは、AD-Copilot は 82.3% の精度を達成し、MMAD-BBox においてベースラインより最大で 3.35 倍の改善を達成します(データ漏洩なし)。
- このアプローチは他のベンチマークにも一般化でき、いくつかの IAD タスクにおいて人間の専門家レベルを上回る性能を示しており、データセットとモデルは公開予定です。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
実務作業のためにAIをローカルで運用する3〜4年計画を始めるべきか?
Reddit r/LocalLLaMA
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA