階層型カーネルトランスフォーマ:情報理論的近似解析に基づくマルチスケール注意

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、L段の解像度レベルにおいて学習可能な因果ダウンサンプリングを用い、レベルごとのスコア行列を学習された凸結合重みで融合するマルチスケール注意機構「Hierarchical Kernel Transformer(HKT)」を提案する。
  • 理論解析により、階層的スコア行列は十分条件の下で正定値(positive semidefinite)カーネルを形成し得ること、また各スケールが一意な対称(相互、reciprocal)成分と反対称(指向的、directional)成分への注意分解を与えることを示す。
  • 著者らは、解釈可能な項からなる近似誤差分解を導出し、明示的な非ガウス補正や、Lが増加するにつれて幾何学的に減衰する上界を含める。
  • HKTは標準注意および因果畳み込みの双方を厳密に包含することが証明されており、総計算量は標準注意の約4/3に抑えられる(L=3のとき1.3125倍)。
  • 3つのデータセット(ListOps、逐次CIFAR-10、IMDBの文字レベル感情)に対する実験では、再学習した標準注意ベースラインに対して、一貫して約1.31倍の計算オーバーヘッドで精度向上が報告される。