潜在異常知識の掘削:視覚言語モデルにおける疎な異常感受性ニューロンの解明

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルがすでに異常検知能力を内包しているが、それが潜在的であり、ごく少数の異常感受性ニューロン群の中でのみ疎に活性化されると主張する。
  • 最小限の正常サンプルのみを用いて、それらの重要なニューロン信号を特定し引き出す学習不要の手法「Latent Anomaly Knowledge Excavation(LAKE)」を提案する。
  • LAKEは、視覚的な構造的な逸脱と、異常検知のためのクロスモーダルな意味活性を結び付ける、コンパクトな「正常性表現」を生成する。
  • 産業用の異常検知ベンチマークに関する実験では、ニューロン単位の解釈可能性も提供しつつ、最先端の結果を達成したと報告されている。
  • 著者らは、下流の異常モジュールを学習することから、事前学習済みVLMにすでに埋め込まれている標的化された潜在知識を活性化することへと、視点の転換を提案する。

Abstract

大規模な視覚言語モデル(VLM)は目覚ましいゼロショット能力を示しますが、その異常検出(AD)性能を駆動する内部メカニズムは、いまだ十分に理解されていません。現在の手法の多くはVLMをブラックボックスの特徴抽出器として扱い、異常に特化した知識は外部アダプタやメモリバンクを通じて獲得される必要があると仮定しています。本論文ではこの前提に挑み、異常知識は事前学習済みモデルの中に本質的に埋め込まれているものの、潜在的であり、かつ十分に活性化されていないと主張します。私たちは、この知識は異常に敏感なニューロンの疎な部分集合に集中しているという仮説を立てます。これを検証するために、最小限の通常サンプルのみを用いて、これらの重要なニューロン信号を同定し、顕在化させる学習不要の枠組みである、潜在異常知識掘り起こし(LAKE)を提案します。敏感なニューロンを分離することで、LAKEは、視覚的な構造的な逸脱と、モダリティをまたぐ意味的活性化とを統合した、非常にコンパクトな正常性表現を構築します。産業界のADベンチマークに対する大規模な実験により、LAKEが最先端性能を達成しつつ、ニューロンレベルの本質的な解釈可能性を提供することを示します。最終的に、私たちの研究はパラダイムシフトを提案します。すなわち、異常検出を下流タスクを獲得することではなく、潜在する事前学習知識を意図的に活性化することとして再定義する、という転換です。