有効次元によってスパイキング・トランスフォーマーの理論と実装のギャップを埋める

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はスパイキング自己注意に関する初めての包括的な表現力(expressivity)理論を提示し、リーキー統合発火(Leaky Integrate-and-Fire)ニューロンを用いたスパイキング注意が連続な置換同変関数をユニバーサル近似できることを示します。
  • 明確なスパイク回路の構成を与え、ソフトマックス正規化を行う新しい側方抑制ネットワークを含めて、O(1/√T)の収束が保証されることを証明します。
  • レート歪み理論(rate-distortion theory)に基づき、ε近似に必要なスパイク数の厳密な下界を導出し、ε-近似のスパイク数が Ω(L_f^2 * n * d / ε^2) に依存することを情報理論的に厳密に導きます。
  • 重要な洞察として、必要なタイムステップ数が入力依存の「有効次元(effective dimension)」で決まる点を示し、CIFAR/ImageNetでの測定値 d_eff = 47–89 により、最悪ケースで T≥10,000 でも実際には T=4 で足りる理由を説明します。
  • Spikformer、QKFormer、SpikingResformer を用いた視覚・言語ベンチマークで実験し、理論予測への強い適合(R^2=0.97, p<0.001)と、設計定数の校正(C=2.3、95%CI [1.9, 2.7])を報告しています。

Abstract

Spiking transformers achieve competitive accuracy with conventional transformers while offering 38-57\times energy efficiency on neuromorphic hardware, yet no theoretical framework guides their design. This paper establishes the first comprehensive expressivity theory for spiking self-attention. We prove that spiking attention with Leaky Integrate-and-Fire neurons is a universal approximator of continuous permutation-equivariant functions, providing explicit spike circuit constructions including a novel lateral inhibition network for softmax normalization with proven O(1/\sqrt{T}) convergence. We derive tight spike-count lower bounds via rate-distortion theory: \varepsilon-approximation requires \Omega(L_f^2 nd/\varepsilon^2) spikes, with rigorous information-theoretic derivation. Our key insight is input-dependent bounds using measured effective dimensions (d_{\text{eff}}=47--89 for CIFAR/ImageNet), explaining why T=4 timesteps suffice despite worst-case T \geq 10{,}000 predictions. We provide concrete design rules with calibrated constants (C=2.3, 95\% CI: [1.9, 2.7]). Experiments on Spikformer, QKFormer, and SpikingResformer across vision and language benchmarks validate predictions with R^2=0.97 (p<0.001). Our framework provides the first principled foundation for neuromorphic transformer design.