SPG: Sparse-Projected Guides with Sparse Autoencoders for Zero-Shot Anomaly Detection

arXiv cs.CV / 4/6/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、ターゲット領域の追加学習(ターゲットドメイン適応なし)を行わない「ゼロショット異常検知・セグメンテーション」を、凍結した基盤モデル特徴を用いて実現する枠組みを扱っています。
  • 提案手法SPG(Sparse-Projected Guides)は、プロンプトベクトルを用いず、Sparse Autoencoder(SAE)の潜在空間で疎なガイド係数を学習して、辞書(dictionary)から通常/異常のガイドベクトルを生成する「プロンプトフリー」アプローチです。
  • 学習は補助データセット上で2段階に分けられ、(1)パッチトークン特徴からSAEを学習し、(2)ピクセルレベルのマスクに基づいてガイド係数のみを最適化してバックボーンとSAEを凍結します。
  • MVTec ADやVisAのクロスデータセット設定で、画像レベル検知およびピクセルレベルのセグメンテーションにおいて競争力のある結果が示され、DINOv3では比較手法中で最高のピクセルAUROCを達成したと報告されています。
  • さらに、OpenCLIPベースに適用する構成も示され、学習されたガイド係数が少数の辞書アトムに意思決定を追跡できることで、カテゴリ一般/カテゴリ固有の要因の解釈可能性にも言及しています。

Abstract

We study zero-shot anomaly detection and segmentation using frozen foundation model features, where all learnable parameters are trained only on a labeled auxiliary dataset and deployed to unseen target categories without any target-domain adaptation. Existing prompt-based approaches use handcrafted or learned prompt embeddings as reference vectors for normal/anomalous states. We propose Sparse-Projected Guides (SPG), a prompt-free framework that learns sparse guide coefficients in the Sparse Autoencoder (SAE) latent space, which generate normal/anomaly guide vectors via the SAE dictionary. SPG employs a two stage learning strategy on the labeled auxiliary dataset: (i) train an SAE on patch-token features, and (ii) optimize only guide coefficients using auxiliary pixel-level masks while freezing the backbone and SAE. On MVTec AD and VisA under cross-dataset zero-shot settings, SPG achieves competitive image-level detection and strong pixel-level segmentation; with DINOv3, SPG attains the highest pixellevel AUROC among the compared methods. We also report SPG instantiated with OpenCLIP (ViT-L/14@336px) to align the backbone with CLIP-based baselines. Moreover, the learned guide coefficients trace decisions back to a small set of dictionary atoms, revealing category-general and category-specific factors.