Vision SmolMamba:スパイク誘導トークンプルーニングによるエネルギー効率の高いスパイキング状態空間ビジョンモデル

arXiv cs.CV / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、スパイキングTransformerが抱える2次的なトークン相互作用の非効率を改善するために設計された、新しいスパイキング状態空間ビジョンアーキテクチャ「Vision SmolMamba」を提案する。
  • Spike-Guided Spatio-Temporal Token Pruner(SST-TP)では、スパイクの活性強度と最初のスパイクのレイテンシの両方を用いてトークン重要度を推定し、冗長なトークンを段階的に削除する。
  • スパイクイベントを双方向の状態空間リカレンスへ直接組み込み、長距離モデリングを効率良く行うためのスパイキング・ビジョン・バックボーンを構築する。
  • ImageNet-1K、CIFAR10/100、CIFAR10-DVS、DVS128 Gestureといった静的およびイベントベースのベンチマークで検証した結果、従来のスパイキングTransformerより精度と効率のトレードオフが良いことが示される。
  • 推定エネルギーコストは、従来のスパイキングTransformerベースラインおよびSpiking Mambaの変種に対して少なくとも1.5×削減され、同等以上の精度(競争力または改善)を維持する。

要旨: スパイキングトランスフォーマーは、スパイク駆動の自己注意によって長距離の視覚モデリングに強い可能性を示してきました。しかし、その二次的なトークン間相互作用は、スパイキングニューラル計算の疎でイベント駆動の性質と根本的に不整合です。この制限に対処するために、本論文では、スパイク駆動のダイナミクスと線形時間の選択的再帰を統合した、エネルギー効率の高いスパイキング状態空間アーキテクチャ「Vision SmolMamba」を提案します。主要な着想は、スパイクガイド付き時空間トークンプルーナ(SST-TP)であり、スパイクの活性強度と最初のスパイクまでの潜時の両方を用いてトークンの重要度を推定します。この仕組みにより、冗長なトークンを段階的に除去しつつ、重要な時空間情報を保持でき、トークンの疎性に対して効率的にスケール可能になります。この仕組みに基づき、提案するSmolMambaブロックはスパイクイベントを双方向の状態空間再帰に直接組み込み、長距離モデリングを効率的に行うためのスパイキング状態空間ビジョンバックボーンを形成します。ImageNet-1K、CIFAR10/100、CIFAR10-DVS、DVS128 Gestureを含む、静的およびイベントベースのベンチマークに対する大規模な実験により、Vision SmolMambaが一貫して精度と効率のトレードオフで優れた性能を達成することが示されます。とりわけ、競合または改善された精度を維持しつつ、従来のスパイキングトランスフォーマー基盤およびスパイキングMambaのバリアントと比較して、推定エネルギーコストを少なくとも1.5倍削減します。これらの結果は、スパイクに導かれたトークンの疎性と状態空間モデリングを組み合わせることで、スパイキング視覚システムに対してスケーラブルでエネルギー効率の高いパラダイムが得られることを示しています。