クロスレイヤー・トランスコーダはビジョン・トランスフォーマーの活性を置き換えられるか？視覚に関する解釈可能な観点

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビジョン・トランスフォーマー（ViT）の内部活性を解釈するには、Transformerの層をまたいだ計算構造を捉える手法が必要だと主張している
既存のスパース・オートエンコーダ（SAEs）は、層ごとに処理する設計であるため、この点を十分に捉えられていない

Abstract

Vision Transformer（ViT）の内部活性を理解することは、解釈可能で信頼できるモデルを構築するうえで重要です。Sparse Autoencoders（SAE）は人間が解釈できる特徴を抽出するために用いられてきましたが、それらは個々の層で動作するため、Transformerの層をまたいだ計算構造を捉えられないことに加え、最終層の表現を形成するうえで各層が持つ相対的な重要性も捉えられません。そこで本稿では、ViTにおけるMLPブロックのための信頼性が高く、疎で、かつ深さに配慮した代理モデルとして、Cross-Layer Transcoders（CLT）の採用を提案します。CLTはエンコーダ–デコーダ方式を用い、先行する層の学習済みの疎な埋め込みから各post-MLP活性を再構成します。これにより、線形分解が得られ、ViTの最終表現を不可解な埋め込みから、加法的で層ごとに解決された構築へと変換できます。これにより、忠実な帰属（attribution）と、プロセス単位での解釈可能性が可能になります。私たちは、CIFAR-100、COCO、ImageNet-100にまたがって、CLIP ViT-B/32およびViT-B/16でCLTを訓練します。CLTは、post-MLP活性に対して高い再構成忠実度を達成しつつ、CLIPのゼロショット分類精度を保持し、場合によっては向上させることも示します。解釈可能性の観点では、層をまたいだ寄与度スコアが忠実な帰属を提供することを示し、最終表現が、支配的な層ごとの項のより小さな集合に集中していることを明らかにします。これらの項を除去すると性能が低下し、残すことでその多くが大きく維持されます。これらの結果は、視覚領域においてViTのための代替的な解釈可能な代理モデルとしてCLTを採用することの重要性を示すものです。

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

日経XTECH

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

Dev.to

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

Dev.to

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

Dev.to

クロスレイヤー・トランスコーダはビジョン・トランスフォーマーの活性を置き換えられるか？視覚に関する解釈可能な観点

要点

Abstract

関連記事

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIで研修刷新 サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ