要旨: 純粋なスパイキングバックボーンが、Transformer蒸留なしに、ランダム初期化から大規模言語モデリングを学習できるかを問う。
9億パラメータのSNN言語モデルであるNeuronSparkを導入する。次トークン予測と代理勾配で訓練される。
このモデルは、選択的状態空間スパイキングダイナミクス、リーク電流による層間通信、PonderNet適応的タイムステップ、融合された Triton PLIFカーネル、および安定化技術(残差センタリング、横抑制正規化、自然勾配補償)を組み合わせている。
制約のある予算のもとで(約14億の事前学習トークンと6,500回のSFTステップ)、NeuronSpark-0.9Bは事前学習損失3.6に到達し、SFT後に早期の多ターン対話挙動を示す。これらの結果は、この規模で純粋なSNNアーキテクチャによるエンドツーエンドの言語モデリングの実現可能性を支持する。
NeuronSpark: 選択的状態空間ダイナミクスを備えたスパイキングニューラルネットワーク言語モデル
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- NeuronSparkは、次のトークン予測と代理勾配を用いて訓練された0.9十億パラメータのスパイキングニューラルネットワーク言語モデルを導入し、Transformer蒸留は行わない。
- 本モデルは、選択的状態空間スパイキングダイナミクス、漏洩電流を用いた層間通信、PonderNet適応タイムステップ、結合型の Triton PLIF カーネル、そして残差中心化、側方抑制正規化、自然勾配補償といった安定化技術を採用している。
- 制約された事前訓練予算(約14億トークン)と6,500回の教師ありファインチューニングステップにより、NeuronSparkは3.6の事前訓練損失に到達し、SFT後に早期のマルチターン対話挙動を示す。
- この規模で純粋なSNNアーキテクチャによるエンドツーエンドの言語モデリングが実現可能であることを示しており、ニューロモルフィックNLPの新しい方向性を示唆している。