SpikingBrain2.0:効率的な長コンテキストとクロスプラットフォーム推論のための脳インスパイア基盤モデル

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • SpikingBrain2.0(SpB2.0)は、長いコンテキストでも性能と計算効率を両立することを目的にした5B規模の脳風(スパイキング)基盤モデルで、先行モデルのアーキテクチャと学習効率を強化しています。
  • DSSA(Dual-Space Sparse Attention)として、層間でSparse Softmax Attention(MoBA)とSparse Linear Attention(SSE)をハイブリッド化し、長文モデリングでの性能/効率トレードオフ改善を狙っています。
  • INT8のスパイキング符号化とFP8の符号化という「デュアル量子化経路」により、イベント駆動計算での効率化と、最新GPUでの推論高速化を両立します。
  • 学習面ではTransformer→ハイブリッド(T2H)の最適化パイプラインを整備し、LLM/VLM向けにデュアル変換経路を用いてオープンデータを厳選して学習コストを抑えつつ性能回復を示しました。
  • 実験では4MコンテキストでTTFTを10.13倍高速化し、vLLM上で8台のA100により10Mトークン超の処理を可能にするなど、メモリ制約の厳しい長文でも動作し、さらにFP8 GPU推論やニューロモーフィック実行での性能/省電力効果を報告しています。

要旨: 文脈長のスケーリングは大規模モデル開発を再構築している一方で、フル注意(full-attention)Transformerは長い系列において計算および推論のボトルネックが過大となり、実用上の障害になります。重要な課題は、最小限の学習オーバーヘッドで性能と長文脈効率を維持する基盤モデルを設計することです。我々は、前身のSpikingBrain(SpB1.0)を発展させる、アーキテクチャと学習効率の両面を進めた5BモデルであるSpikingBrain2.0(SpB2.0)を提案します。
我々の貢献は二つです。(1) アーキテクチャ革新: Dual-Space Sparse Attention(DSSA)を提案します。これは、Sparse Softmax Attention(MoBA)とSparse Linear Attention(SSE)を層間でハイブリッドに統合したものであり、長文脈モデリングにおいて性能—効率のトレードオフを改善します。SpB2.0はさらに、二つの量子化パスをサポートします。INT8スパイキング符号化により疎なイベント駆動計算を可能にし、一方FP8符号化は最新GPU上での推論を加速します。(2) 改良された学習戦略: キュレーションされたオープンソースデータを用いて、LLMとVLMのための二重変換パスを備えた最適化されたTransformer-to-Hybrid(T2H)パイプラインを開発します。
実験的に、SpB2.0-5BおよびSpB2.0-VL-5Bは、7k A100 GPU時間未満でベースTransformer(Qwen3-4B)の能力の大部分を回復します。SpB2.0は、4M文脈において10.13倍のTTFT速度向上を達成し、vLLMの下で8基のA100 GPUにおいて10Mトークン超をサポートします。これは、フル注意モデルがメモリ制限を超えてしまう状況です。また、FP8 GPU推論(250kで2.52倍の速度向上)と効率的なニューロモーフィック実行(500MHzで64.31%の疎性、さらに70.6%および46.5%の面積と電力削減)により、強いクロスプラットフォーム互換性を示します。
全体として、SpikingBrain2.0は、軽量なマルチモーダルなスパイキング基盤モデルへの実用的な道筋を提供し、脳に着想を得たメカニズムと効率的なアーキテクチャを組み合わせることが、資源制約のある状況やエッジシナリオにおいて有望であることを示しています。