要旨:
骨格ベースのアクション認識はマルチメディアアプリケーションにとって極めて重要ですが、電力を大量に消費する人工ニューラルネットワーク(ANNs)に大きく依存しており、リソース制約のあるエッジデバイスへの展開を制限しています。
スパイキングニューラルネットワーク(SNNs)はエネルギー効率の高い代替手段を提供しますが、骨格データ用の既存のスパイキングモデルはしばしばSNNの固有のスパーシティを妥協し、密な行列の集約、重い多モーダル融合モジュール、または非スパースな周波数領域変換に頼っています。
さらに、スパイキングニューロンの短期的な健忘(アムネシア)に著しく苦しんでいます。
本論文では、Spiking State-Space Topology Transformer(S3T-Former)を提案します。私たちの知る限り、これはエネルギー効率の高い骨格アクション認識のために特別に設計された、純粋にスパイク駆動のトランスフォーマーアーキテクチャの最初の試みです。
重い融合オーバーヘッドに頼る代わりに、一般化された運動学差分演算子として機能するMulti-Stream Anatomical Spiking Embedding(M-ASE)を定式化し、マルチモーダルな骨格特徴を異種で高度にスパースなイベントストリームへと優雅に変換します。
真のトポロジーおよび時間的スパース性を実現するために、オンデマンド条件発火伝播のためのLateral Spiking Topology Routing(LSTR)を導入し、長距離の時間ダイナミクスを非スパースなスペクトル処理の回避策なしに体系的に捉えるSpiking State-Space(S3)Engineを導入します。
複数の大規模データセットに対する広範な実験により、S3T-Formerは従来のANNと比較してエネルギー消費を理論的に低減しつつ高い競争力のある精度を達成し、エネルギー効率の高いニューロモルフィックなアクション認識の新たな最先端を確立します。
S3T-Former: 骨格アクション認識のための純粋なスパイク駆動状態空間トポロジー・トランスフォーマー
arXiv cs.AI / 2026/3/20
📰 ニュースModels & Research
要点
- S3T-Former は、エネルギー効率の高いスケルトン動作認識のための初の純粋なスパイク駆動トランスフォーマーとして提案され、エッジデバイスの電力懸念に対処します。
- Multi-Stream Anatomical Spiking Embedding (M-ASE) を導入し、マルチモーダルなスケルトン特徴を高度に疎なイベントストリームへ変換して、密な計算を削減します。
- Lateral Spiking Topology Routing (LSTR) はオンデマンドのスパイク伝搬を可能にし、Spiking State-Space (S3) Engine は高密度なスペクトル処理を伴うことなく長距離の時間ダイナミクスを捉えます。
- 大規模データセットでの実験は、理論上のエネルギー節約と競合する精度を示し、ニューロモルフィックアクション認識の新しい最先端を確立します。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
