BSViT：表現力と効率を両立するバースト発火型スパイキング・ビジョン・トランスフォーマー

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、スパイキング・ビジョン・トランスフォーマーの枠組みにおいて、エネルギー効率の高い視覚表現学習を改善するBSViTを提案する。
既存S-ViTの主要な制約として、情報容量の不足（バイナリ発火）とグローバル自己注意による密なトークン相互作用を取り上げ、それをDBSSAで解決する。
DBSSAでは、クエリをバイナリ発火、キーをバースト発火で符号化し、表現能力の向上を狙っている。
値の経路には興奮性チャネルと抑制性チャネルのデュアルなバイナリ経路を用い、符号付きのモジュレーションにより、より豊かなスパイク相互作用を可能にする。
さらに、注意計算を加算のみで維持しつつ、パッチ隣接マスキングで局所近傍への注意を制限することで、スパイク活動と計算コストを抑えながら、静止画像・イベントベース双方のベンチマークで既存スパイキング・トランスフォーマーより高い精度と競争力のあるエネルギー効率を示す。