Abstract
Vision Transformer(ToMe、ToFu、PiToMe、MCTF)に対する学習不要のトークン削減手法は、異なるスコアリング機構を用いているものの、高圧縮時における崖のような崩壊が非常に密接に一致しています。本論文ではaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaa
その理由を説明します。層ごとの削減に内在する、信号に依存しない誤差増幅器によって崩壊を分解する診断フレームワークを開発し、これにより凸状のパレート曲線と r_{\text{crit}} \propto 1/L を予測します;さらに(2)
ペアワイズの
類似度シグナルへの共有された依存により、ランキング整合性が深い層で \rho_s{=}0.88 から 0.27 へと低下します。ペアワイズのランキングは本質的に不安定です(O(N_p^2) の同時摂動)一方で、ユニ項シグナルはより高い安定性を持ちます(O(N_p) の摂動、CLT)。この診断から導かれる3つの設計原理に基づき、構成的検証として CATIS を構築します:ユニ項シグナルはトリガ閾値を引き上げ、トリアージは利得を抑制します。FLOPsを63%削減した ViT-Large において、CATIS は ImageNet-1K で基礎モデル(バニラ)精度の 96.9%(81.0%)を保持します。ここでは、すべてのベースラインが 43--65% へと崩壊します。




