セマンティクスを超えて:CLIP向けスパース自己符号化器における情報スコープの切り分け
arXiv cs.CV / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CLIPに対するスパース自己符号化器(SAE)の解釈は、特徴ごとのセマンティクスの観点にとどまらず、「情報スコープ」の視点を加えるべきだと主張する。
- 情報スコープを、SAEのある特徴がどれほど広く視覚的証拠を集約するかとして定義し、局所的でパッチ固有の手がかりと、画像レベルのグローバルな信号とを区別する。
- 著者らは、空間的な摂動に対しても安定に保たれる特徴がある一方で、小さな入力変化に対しては予測不能に変化する特徴もあることを観察し、そこには本質的に異なるスコープ挙動があることを示唆する。
- 位置的に安定したローカルスコープの特徴と、位置的に変動するグローバルスコープの特徴の分岐を定量化するために、文脈依存スコア(Contextual Dependency Score; CDS)を導入する。
- 実験結果では、異なるスコープのタイプがCLIPの予測と確信度に対して系統的に影響を与えることが示され、情報スコープがSAE解釈可能性に対する新しい診断軸になることが明らかになる。