重みから概念へ:特異ベクトル分解によるCLIPのデータ不要解釈可能性
arXiv cs.CV / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CLIPのための訓練不要・データ不要の解釈可能性フレームワークSITH(Semantic Inspection of Transformer Heads)を提案する。これは、活性化やデータセットに依存せず、重み空間で直接動作する。
- CLIPの視覚トランスフォーマにおける各注意ヘッドについて、値出力行列を特異値分解により分解し、その各成分を新しいCOMPアルゴリズムによって、人間が解釈できる概念の疎で意味的に整合した組み合わせとして解釈する。
- 実験により、SITHが再構成の忠実性と解釈可能性に焦点を当てたテストの両方を用いて、首尾一貫したかつ忠実な説明を生成することが検証されたと報告されている。
- この手法により、再学習なしで、特定の概念を強調または抑制する精密な重み空間でのモデル編集が可能になり、解釈可能性を維持しつつ下流性能を改善できる。
- 著者らはさらにSITHを用いてファインチューニングを分析し、適応はまったく新しい特徴を作り出すのではなく、既存の安定した意味基底の重み付けを主に調整していると主張している。
広告




