SPG: ゼロショット異常検知のための疎投影ガイド(Sparse-Projected Guides)と疎オートエンコーダ(Sparse Autoencoders)

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ターゲット領域の追加学習(ターゲットドメイン適応なし)を行わない「ゼロショット異常検知・セグメンテーション」を、凍結した基盤モデル特徴を用いて実現する枠組みを扱っています。
  • 提案手法SPG(Sparse-Projected Guides)は、プロンプトベクトルを用いず、Sparse Autoencoder(SAE)の潜在空間で疎なガイド係数を学習して、辞書(dictionary)から通常/異常のガイドベクトルを生成する「プロンプトフリー」アプローチです。
  • 学習は補助データセット上で2段階に分けられ、(1)パッチトークン特徴からSAEを学習し、(2)ピクセルレベルのマスクに基づいてガイド係数のみを最適化してバックボーンとSAEを凍結します。
  • MVTec ADやVisAのクロスデータセット設定で、画像レベル検知およびピクセルレベルのセグメンテーションにおいて競争力のある結果が示され、DINOv3では比較手法中で最高のピクセルAUROCを達成したと報告されています。
  • さらに、OpenCLIPベースに適用する構成も示され、学習されたガイド係数が少数の辞書アトムに意思決定を追跡できることで、カテゴリ一般/カテゴリ固有の要因の解釈可能性にも言及しています。

Abstract

本研究では、凍結した基盤モデルの特徴を用いたゼロショットの異常検知およびセグメンテーションを扱います。学習可能なパラメータはすべて、ラベル付きの補助データセット上でのみ学習され、対象ドメインへの適応(target-domain adaptation)なしで、未見のターゲットカテゴリに展開されます。既存のプロンプトベース手法は、正常/異常状態の参照ベクトルとして、手作りまたは学習されたプロンプト埋め込みを利用します。本研究では、Sparse Autoencoder(SAE)の潜在空間における疎なガイド係数を学習し、SAE辞書を通じて正常/異常のガイドベクトルを生成する、プロンプト不要の枠組みであるSparse-Projected Guides(SPG)を提案します。SPGは、ラベル付き補助データセット上で二段階の学習戦略を採用します:(i)パッチトークン特徴に対してSAEを学習し、(ii)バックボーンとSAEを凍結したまま、補助のピクセルレベルマスクを用いてガイド係数のみを最適化します。クロスデータセットのゼロショット設定におけるMVTec ADとVisAにおいて、SPGは画像レベル検知で競争力のある性能を達成し、ピクセルレベルのセグメンテーションも強力です。DINOv3では、比較手法の中で最も高いピクセルレベルAUROCをSPGが達成します。さらに、OpenCLIP(ViT-L/14@336px)で具体化したSPGも報告しており、バックボーンをCLIPベースラインに整合させます。加えて、学習されたガイド係数は、少数の辞書アトムへと判断を追跡できることを示し、カテゴリに一般的な要因とカテゴリ固有の要因の両方を明らかにします。