疎オートエンコーダの潜在表現を操って、視覚トランスフォーマにおける動的ヘッド枝刈りを制御する（学生要旨）

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚トランスフォーマにおける動的ヘッド枝刈りが、既存の枝刈りポリシーでは典型的に解釈や制御が難しいという課題に取り組む。
ViTの最終層の残差埋め込みに対して疎オートエンコーダ（SAE）を学習し、増幅した疎潜在変数を用いて異なる枝刈り判断を導く枠組みを提案する。
この手法は「クラスごとのステアリング（per-class steering）」をサポートしており、精度を維持しながら注意ヘッドのコンパクトなクラス固有の部分集合を発見する。
報告された例として「bowl」クラスでの性能向上が挙げられており、精度が76%から82%に改善する一方で、ヘッド使用量は0.72から0.33へ低下している（h2とh5まで枝刈り）。
著者らは、この手法が、疎で分離された特徴を通じて枝刈り挙動を制御可能にすることで、枝刈り効率とメカニズムに基づく解釈可能性を結び付けると主張している。

Abstract

Vision Transformers（ViTs）におけるダイナミックなヘッド枝刈りは、冗長な注意ヘッドを除去することで効率を高めますが、既存の枝刈りポリシーはしばしば解釈や制御が難しいものです。本研究では、Sparse Autoencoders（SAE）をダイナミック枝刈りに統合することで新たな枠組みを提案します。これにより、密な埋め込みを解釈可能で制御可能な疎な潜在へと分解できるSAEの能力を活用します。具体的には、ViTの最終層の残差埋め込みに対してSAEを学習し、異なる戦略で疎な潜在を増幅することで枝刈り判断を変えます。その中でも、クラスごとのスティアリングにより、精度を維持しつつ、コンパクトなクラス固有のヘッド部分集合が明らかになります。例えば、bowlは、heads h2とh5を用いることで、ヘッド使用率を0.72から0.33に抑えながら精度を76%から82%へ向上させます。これらの結果は、疎な潜在特徴がダイナミック枝刈りをクラスごとに制御可能にし、ViTにおける枝刈り効率とメカニズム的な解釈可能性を効果的に橋渡しすることを示しています。