セマンティクスを超えて:CLIP向けスパース自己符号化器における情報スコープの切り分け

arXiv cs.CV / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CLIPに対するスパース自己符号化器(SAE)の解釈は、特徴ごとのセマンティクスの観点にとどまらず、「情報スコープ」の視点を加えるべきだと主張する。
  • 情報スコープを、SAEのある特徴がどれほど広く視覚的証拠を集約するかとして定義し、局所的でパッチ固有の手がかりと、画像レベルのグローバルな信号とを区別する。
  • 著者らは、空間的な摂動に対しても安定に保たれる特徴がある一方で、小さな入力変化に対しては予測不能に変化する特徴もあることを観察し、そこには本質的に異なるスコープ挙動があることを示唆する。
  • 位置的に安定したローカルスコープの特徴と、位置的に変動するグローバルスコープの特徴の分岐を定量化するために、文脈依存スコア(Contextual Dependency Score; CDS)を導入する。
  • 実験結果では、異なるスコープのタイプがCLIPの予測と確信度に対して系統的に影響を与えることが示され、情報スコープがSAE解釈可能性に対する新しい診断軸になることが明らかになる。

Abstract

スパース・オートエンコーダ(SAE)は、CLIP視覚エンコーダの内部表現を解釈するための強力な手法として登場してきた一方で、既存の分析の多くは個々の特徴の意味論的な意味に主に焦点を当てています。私たちは、SAE特徴がどの程度広く視覚的証拠を集約するかを、局所的でパッチ固有の手がかりから、画像レベルのグローバルな信号までの範囲として特徴づける、解釈可能性の補完的な次元として「情報スコープ」を導入します。空間的な摂動に対して一部のSAE特徴は一貫して応答するのに対し、他の特徴は入力のわずかな変化で予測不能に変動することを観察し、基盤となるスコープの間に本質的な違いがあることを示しています。これを定量化するために、位置的に安定した局所スコープの特徴と、位置的に変動するグローバルスコープの特徴を分離する「文脈依存度スコア(CDS)」を提案します。実験の結果、異なる情報スコープをもつ特徴が、CLIPの予測と確信度に対して体系的に異なる影響を及ぼすことがわかりました。これらの知見は、情報スコープをCLIP表現を理解するための重要な新たな軸として確立するとともに、SAE由来の特徴に対するより深い診断的な見方を提供します。