クロスレイヤー・トランスコーダはビジョン・トランスフォーマーの活性を置き換えられるか?視覚に関する解釈可能な観点

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビジョン・トランスフォーマー(ViT)の内部活性を解釈するには、Transformerの層をまたいだ計算構造を捉える手法が必要だと主張している
  • 既存のスパース・オートエンコーダ(SAEs)は、層ごとに処理する設計であるため、この点を十分に捉えられていない

Abstract

Vision Transformer(ViT)の内部活性を理解することは、解釈可能で信頼できるモデルを構築するうえで重要です。Sparse Autoencoders(SAE)は人間が解釈できる特徴を抽出するために用いられてきましたが、それらは個々の層で動作するため、Transformerの層をまたいだ計算構造を捉えられないことに加え、最終層の表現を形成するうえで各層が持つ相対的な重要性も捉えられません。そこで本稿では、ViTにおけるMLPブロックのための信頼性が高く、疎で、かつ深さに配慮した代理モデルとして、Cross-Layer Transcoders(CLT)の採用を提案します。CLTはエンコーダ–デコーダ方式を用い、先行する層の学習済みの疎な埋め込みから各post-MLP活性を再構成します。これにより、線形分解が得られ、ViTの最終表現を不可解な埋め込みから、加法的で層ごとに解決された構築へと変換できます。これにより、忠実な帰属(attribution)と、プロセス単位での解釈可能性が可能になります。私たちは、CIFAR-100、COCO、ImageNet-100にまたがって、CLIP ViT-B/32およびViT-B/16でCLTを訓練します。CLTは、post-MLP活性に対して高い再構成忠実度を達成しつつ、CLIPのゼロショット分類精度を保持し、場合によっては向上させることも示します。解釈可能性の観点では、層をまたいだ寄与度スコアが忠実な帰属を提供することを示し、最終表現が、支配的な層ごとの項のより小さな集合に集中していることを明らかにします。これらの項を除去すると性能が低下し、残すことでその多くが大きく維持されます。これらの結果は、視覚領域においてViTのための代替的な解釈可能な代理モデルとしてCLTを採用することの重要性を示すものです。