画像レベルの教師による推論駆動の異常検出と局在化

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案手法ReALは、MLLMの推論過程から異常関連トークンを抽出し、そのattention応答を集約して画素レベルの異常マップを生成する枠組みを示している。
Consistency-Guided Reasoning Optimization (CGRO) は強化学習で推論トークンと視覚attentionの整合を高め、より首尾一貫した推論と局在精度の向上を狙っている。
画素レベルの教師や外部の補助視覚モジュールに頼らず、画像レベルの教師のみで異常検出・局在・解釈可能な推論を行えることを主張している。
4つの公開ベンチマークで、検出・局在・解釈性が大幅に改善され、画素レベル教師ありで学習したMLLMベース手法に競合する性能を示したとしている。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、異常検出において、最近になって推論能力と知覚能力が目覚ましいことを示しています。しかし、ほとんどのアプローチは画像レベルの異常検出とテキストによる推論にとどまっており、一方でピクセルレベルの局在化は、外部の視覚モジュールや密な注釈に依存しています。本研究では、MLLMの内在的な推論ポテンシャルを活性化し、画像レベルの監督のみから、補助的な構成要素やピクセル単位のラベルなしで、異常検出、ピクセルレベルの局在化、そして解釈可能な推論を行います。具体的には、自 autoregressive な推論プロセスから異常に関連するトークンを抽出し、それらの注意（attention）応答を集約してピクセルレベルの異常マップを生成する、Reasoning-Driven Anomaly Localization（ReAL）を提案します。さらに、強化学習を活用して推論トークンを視覚的な注意へと整合させる、Consistency-Guided Reasoning Optimization（CGRO）モジュールを導入し、より首尾一貫した推論と正確な異常局在化を実現します。4つの公開ベンチマークに対する大規模な実験により、本手法が異常検出、局在化、そして解釈可能性を大幅に改善することを示します。注目すべき点として、画像レベルの監督のみに依存しているにもかかわらず、本アプローチは密なピクセルレベル監督のもとで学習されたMLLMベース手法と競争力のある性能を達成します。コードは https://github.com/YizhouJin313/ReADL で公開されています。