スパイクの疎性が実運用コストに結びつかない場合:Jetson Orin NanoでのVS-WNO

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本研究は、スパイキングニューラルオペレータにおけるスパイク疎性が、Jetson Orin Nano上で標準的なエッジGPUソフトウェアスタックにデプロイした場合に、本当に低レイテンシ/低エネルギーをもたらすかを検証する。
  • 「reference-aligned」経路では、VS-WNOが明確なアルゴリズム上の疎性を示し、平均スパイク率は第1スパイキング層で54.26%から第4層で18.15%へと低下する。
  • しかし「deployment-style」なリクエスト経路では、その疎性はコスト削減につながらず、VS-WNOは推論あたり59.6 msと228.0 mJに対し、密なWNOは53.2 msと180.7 mJを達成する。
  • Nsight Systemsの計測では、スパイク活動が減ってもランタイムが密な計算を効果的に抑制せず、レイテンシ領域でcudaLaunchKernelが支配的(VS-WNOではCUDA API時間の81.6%)であることが示唆される。
  • 著者らは、このJetson級GPUスタックではスパイク疎性は測定可能だが、実装上の疎実行がランタイムによって実現されないため、デプロイコストを下げるには不十分だと結論づける。