AI Navigate

ニューラルダイナミクス自己注意を用いたスパイキング・トランスフォーマー

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、スパイキングニューラルネットワークをトランスフォーマーアーキテクチャと統合することを分析し、スパイキング・トランスフォーマーにおける2つの主要な制約を特定した。人工ニューラルネットワークと比較した性能差と、推論時の高いメモリオーバーヘッドの2点であり、これらはスパイキング自己注意機構に起因するとされる。
  • 本研究はLRF-Dynを提案する。LRF-Dynは、スパイキングニューロンに局所的な受容野を課すことで、近傍領域を強調し、局所モデリングを強化しつつ、メモリ使用量を削減する。
  • さらに、大規模なアテンションマトリクスの保存を不要にするため、アテンションをチャージ・ファイア・リセット・ダイナミクスで近似し、推論時のメモリを削減する。
  • 視覚タスクを対象とした広範な実験は、メモリ削減と性能向上の両方を示し、LRF-Dynをエネルギー効率の高いスパイキング・トランスフォーマーの中核ユニットとして位置づけている。
  • 本研究の知見は、エッジデバイスにおけるビジョン展開やMLエンジニアリング・製品計画における下流ワークフローに実践的な影響を与える。

Abstract

Integrating Spiking Neural Networks (SNNs) with Transformer architectures offers a promising pathway to balance energy efficiency and performance, particularly for edge vision applications. However, existing Spiking Transformers face two critical challenges: (i) a substantial performance gap compared to their Artificial Neural Networks (ANNs) counterparts and (ii) high memory overhead during inference. Through theoretical analysis, we attribute both limitations to the Spiking Self-Attention (SSA) mechanism: the lack of locality bias and the need to store large attention matrices. Inspired by the localized receptive fields (LRF) and membrane-potential dynamics of biological visual neurons, we propose LRF-Dyn, which uses spiking neurons with localized receptive fields to compute attention while reducing memory requirements. Specifically, we introduce a LRF method into SSA to assign higher weights to neighboring regions, strengthening local modeling and improving performance. Building on this, we approximate the resulting attention computation via charge-fire-reset dynamics, eliminating explicit attention-matrix storage and reducing inference-time memory. Extensive experiments on visual tasks confirm that our method reduces memory overhead while delivering significant performance improvements. These results establish it as a key unit for achieving energy-efficient Spiking Transformers.