疎オートエンコーダの潜在表現を操って、視覚トランスフォーマにおける動的ヘッド枝刈りを制御する(学生要旨)
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚トランスフォーマにおける動的ヘッド枝刈りが、既存の枝刈りポリシーでは典型的に解釈や制御が難しいという課題に取り組む。
- ViTの最終層の残差埋め込みに対して疎オートエンコーダ(SAE)を学習し、増幅した疎潜在変数を用いて異なる枝刈り判断を導く枠組みを提案する。
- この手法は「クラスごとのステアリング(per-class steering)」をサポートしており、精度を維持しながら注意ヘッドのコンパクトなクラス固有の部分集合を発見する。
- 報告された例として「bowl」クラスでの性能向上が挙げられており、精度が76%から82%に改善する一方で、ヘッド使用量は0.72から0.33へ低下している(h2とh5まで枝刈り)。
- 著者らは、この手法が、疎で分離された特徴を通じて枝刈り挙動を制御可能にすることで、枝刈り効率とメカニズムに基づく解釈可能性を結び付けると主張している。




