学習なしトークン削減が崩壊する理由:ペアワイズ評価シグナルの本質的な不安定性

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ToMe、ToFu、PiToMe、MCTF などの学習なしトークン削減手法は、スコアリング機構が異なっていても、高い圧縮率で“崖”のような精度低下が起きうる。
  • 本論文は、失敗の要因を2つに分解して説明しており、(1)層ごとの削減に内在する誤差増幅の影響(凸状のパレート曲線や臨界圧縮が r_crit ∝ 1/L に従うといった予測)と、(2)深い層ほどペアワイズ類似度のランキング整合性が劣化する点が挙げられる。
  • 診断のためにランキング整合性(ρ_s)とオフダイアゴナル相関(ρ_off)を導入し、崩壊を不安定なペアワイズ評価シグナルに帰着させている。
  • 診断に基づき設計原則を提示し、CATISを構築している。CATISはユニアリ(単項)シグナルでトリガ閾値を引き上げ、triageでゲインを抑える。
  • ViT-LargeでFLOPsを63%削減する設定で、CATISは通常モデルの精度の96.9%(ImageNet-1Kのtop-1が81.0%)を保持し、従来ベースラインは約43〜65%へ崩壊する。

Abstract

Vision Transformer(ToMe、ToFu、PiToMe、MCTF)に対する学習不要のトークン削減手法は、異なるスコアリング機構を用いているものの、高圧縮時における崖のような崩壊が非常に密接に一致しています。本論文では

aaaaaaaaaaaaaaaaaa

aaaaaaaaaaaaaaaaaa
その理由を説明します。層ごとの削減に内在する、信号に依存しない誤差増幅器によって崩壊を分解する診断フレームワークを開発し、これにより凸状のパレート曲線と r_{\text{crit}} \propto 1/L を予測します;さらに(2)
ペアワイズの
類似度シグナルへの共有された依存により、ランキング整合性が深い層で \rho_s{=}0.88 から 0.27 へと低下します。ペアワイズのランキングは本質的に不安定です(O(N_p^2) の同時摂動)一方で、ユニ項シグナルはより高い安定性を持ちます(O(N_p) の摂動、CLT)。この診断から導かれる3つの設計原理に基づき、構成的検証として CATIS を構築します:ユニ項シグナルはトリガ閾値を引き上げ、トリアージは利得を抑制します。FLOPsを63%削減した ViT-Large において、CATIS は ImageNet-1K で基礎モデル(バニラ)精度の 96.9%(81.0%)を保持します。ここでは、すべてのベースラインが 43--65% へと崩壊します。