重みから概念へ：特異ベクトル分解によるCLIPのデータ不要解釈可能性

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CLIPのための訓練不要・データ不要の解釈可能性フレームワークSITH（Semantic Inspection of Transformer Heads）を提案する。これは、活性化やデータセットに依存せず、重み空間で直接動作する。
CLIPの視覚トランスフォーマにおける各注意ヘッドについて、値出力行列を特異値分解により分解し、その各成分を新しいCOMPアルゴリズムによって、人間が解釈できる概念の疎で意味的に整合した組み合わせとして解釈する。
実験により、SITHが再構成の忠実性と解釈可能性に焦点を当てたテストの両方を用いて、首尾一貫したかつ忠実な説明を生成することが検証されたと報告されている。
この手法により、再学習なしで、特定の概念を強調または抑制する精密な重み空間でのモデル編集が可能になり、解釈可能性を維持しつつ下流性能を改善できる。
著者らはさらにSITHを用いてファインチューニングを分析し、適応はまったく新しい特徴を作り出すのではなく、既存の安定した意味基底の重み付けを主に調整していると主張している。

Abstract

ビジョン・言語モデルが大規模に展開されるにつれて、その内部メカニズムを理解することはますます重要になっています。既存の解釈可能性手法は主に活性（activations）に依存しており、その結果、データセット依存となり、データのバイアスに脆弱で、またしばしば粗いヘッド（head）レベルでの説明に限られています。私たちは、CLIPの視覚トランスフォーマーを重み空間（weight space）で直接解析する、完全にデータフリーかつトレーニングフリーの枠組みであるSITH（Semantic Inspection of Transformer Heads）を提案します。各注意ヘッドについて、その値出力行列（value-output matrix）を特異ベクトルに分解し、それぞれをCOMP（Coherent Orthogonal Matching Pursuit）によって解釈します。COMPは新しいアルゴリズムであり、人間が解釈できる概念の、疎で意味的に一貫した（semantically coherent）組み合わせとして、それらを説明します。私たちは、SITHが、再構成の忠実度および解釈可能性の実験によって検証される、首尾一貫した忠実なヘッド内部（intra-head）の説明をもたらすことを示します。これにより、SITHを用いて、特定の概念を増幅または抑制するような、正確で解釈可能な重み空間におけるモデル編集を、再学習なしで行えるようになります。さらに、SITHを用いてモデル適応を研究し、微調整（fine-tuning）が、まったく新しい特徴を学習するのではなく、主として安定した意味的基底（semantic basis）を再重み付けすることを示します。