GB10 Solution Atlasがオープンソース化—コミュニティ向け推論エンジン(Qwen3.6-35B-FP8で100+トークン/秒)

Reddit r/LocalLLaMA / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • GB10 Solution Atlasの推論エンジンがオープンソースとして公開され、RustとCUDAで構築されておりPyTorch/Pythonランタイムを使わないため、非常に高速なコールドスタートと小型のコンテナイメージを実現しています。
  • DGX Spark上でのボトルネックがシリコンではなく、プロンプトからGPUまでの間にある20GB超の汎用Python処理にあったとして、HTTPハンドラからカーネルディスパッチまでを作り直してオーバーヘッドを排除しました。
  • 単一のDGX Spark(GB10)でのベンチマークでは、複数のモデルに対して高いトークン速度が報告されており、Qwen 35Bでは持続で100トークン/秒超となっています。
  • AtlasはNVIDIA Blackwell SM120/121向けに手チューニングされたCUDAカーネル(attention、MoE、GDN、Mamba-2など)を採用し、Multi-Token Prediction(MTP)の推測デコードでデコード性能の向上を狙っています。
  • Dockerの簡単なコマンドで利用でき、今後はStrix Haloなど他のハードウェアへの移植や、将来のRTX 6000 Pro Blackwell対応も予定されています。
The GB10 Solution Atlas is now open source, the inference engine made for the community with breakneck inference speeds (Qwen3.6-35B-FP8 100+ tok/s)

皆さんの中には、DGX Spark上でQwen3.5-35Bを使って102 tok/sの安定稼働が出せた、という数週間前の投稿を見た方もいると思います。多くの方から「いいね、コードはどこ?」と聞かれました。今日はその日です:Github

Atlasはオープンソースです。 純粋なRust + CUDAで、PyTorchもPythonランタイムも不要。約2.5 GBのイメージで、<2分のコールドスタートです。Sparkでのボトルネックがシリコンではなく、プロンプトとGPUの間に挟まった20GB超の汎用的なPython機構だったため、HTTPハンドラからカーネルディスパッチまで、スタック全体を書き直しました。Atlasを開発者向けにさらに進化させ続けるために、コミュニティの支援が必要です。

単一のDGX Spark(GB10)での数値:

Qwen3.5-35B(NVFP4、MTP K=2):ピーク130 tok/s、約111 tok/s維持 → テスト時3.0–3.3倍 vLLM

Qwen3.5-122B(NVFP4、EP=2):約50 tok/sデコード

Qwen3-Next-80B-A3B(NVFP4、MTP):約87 tok/s

Nemotron-3 Nano 30B(FP8):約88 tok/s

サイト上の全モデル行列(Minimax2.7、Qwen3.6、Gemmaも!)

実際に何が違うのか:

Blackwell SM120/121向けに手でチューニングしたCUDAカーネル。つまり attention、MoE、GDN、Mamba-2。汎用のフォールバックはありません。

テンソルコア上でのNVFP4 + FP8ネイティブ対応

デコード時の最大3倍スループットを狙う、MTP(Multi-Token Prediction)スペキュラティブデコーディング

同一ポートでOpenAI + Anthropic APIに対応。Claude Code、Cline、OpenCode、Open WebUIとも最初からそのまま連携できます

試してみてください(2つのコマンド):

docker pull avarok/atlas-gb10:latest sudo docker run -d --name atlas --network host --gpus all --ipc=host 
 -v ~/.cache/huggingface:/root/.cache/huggingface 
 avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 
 --port 8888 --speculative --enable-prefix-caching 

特にSpark以外の方に向けた次の動き: 現在Spectral Computeと連携してStrix Halo向けのポートに取り組んでおり、AMDからはそれを適切に行うためのハードウェア提供も受けています。RTX 6000 Pro Blackwellもロードマップに入っています。同じカーネル思想を、チップごとに最適化して適用します。20枚のチップをひどくやるより、4枚のチップをきちんとやりたいのです。

X/Twitter
Site
Discord

一日中コメント欄にいます。イレギュラーケース、変わったモデル、壊れた設定などを投げてください。ロードマップは本当にコミュニティ主導です。Discordの誰かがMInimax M2.7を求めてくれたことで、MInimax M2.7が実際に着地しました。

submitted by /u/Live-Possession-6726
[link] [comments]