| 皆さんの中には、DGX Spark上でQwen3.5-35Bを使って102 tok/sの安定稼働が出せた、という数週間前の投稿を見た方もいると思います。多くの方から「いいね、コードはどこ?」と聞かれました。今日はその日です:Github Atlasはオープンソースです。 純粋なRust + CUDAで、PyTorchもPythonランタイムも不要。約2.5 GBのイメージで、<2分のコールドスタートです。Sparkでのボトルネックがシリコンではなく、プロンプトとGPUの間に挟まった20GB超の汎用的なPython機構だったため、HTTPハンドラからカーネルディスパッチまで、スタック全体を書き直しました。Atlasを開発者向けにさらに進化させ続けるために、コミュニティの支援が必要です。 単一のDGX Spark(GB10)での数値: Qwen3.5-35B(NVFP4、MTP K=2):ピーク130 tok/s、約111 tok/s維持 → テスト時3.0–3.3倍 vLLM Qwen3.5-122B(NVFP4、EP=2):約50 tok/sデコード Qwen3-Next-80B-A3B(NVFP4、MTP):約87 tok/s Nemotron-3 Nano 30B(FP8):約88 tok/s サイト上の全モデル行列(Minimax2.7、Qwen3.6、Gemmaも!) 実際に何が違うのか: Blackwell SM120/121向けに手でチューニングしたCUDAカーネル。つまり attention、MoE、GDN、Mamba-2。汎用のフォールバックはありません。 テンソルコア上でのNVFP4 + FP8ネイティブ対応 デコード時の最大3倍スループットを狙う、MTP(Multi-Token Prediction)スペキュラティブデコーディング 同一ポートでOpenAI + Anthropic APIに対応。Claude Code、Cline、OpenCode、Open WebUIとも最初からそのまま連携できます 試してみてください(2つのコマンド): 特にSpark以外の方に向けた次の動き: 現在Spectral Computeと連携してStrix Halo向けのポートに取り組んでおり、AMDからはそれを適切に行うためのハードウェア提供も受けています。RTX 6000 Pro Blackwellもロードマップに入っています。同じカーネル思想を、チップごとに最適化して適用します。20枚のチップをひどくやるより、4枚のチップをきちんとやりたいのです。 一日中コメント欄にいます。イレギュラーケース、変わったモデル、壊れた設定などを投げてください。ロードマップは本当にコミュニティ主導です。Discordの誰かがMInimax M2.7を求めてくれたことで、MInimax M2.7が実際に着地しました。 [link] [comments] |
GB10 Solution Atlasがオープンソース化—コミュニティ向け推論エンジン(Qwen3.6-35B-FP8で100+トークン/秒)
Reddit r/LocalLLaMA / 2026/5/7
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- GB10 Solution Atlasの推論エンジンがオープンソースとして公開され、RustとCUDAで構築されておりPyTorch/Pythonランタイムを使わないため、非常に高速なコールドスタートと小型のコンテナイメージを実現しています。
- DGX Spark上でのボトルネックがシリコンではなく、プロンプトからGPUまでの間にある20GB超の汎用Python処理にあったとして、HTTPハンドラからカーネルディスパッチまでを作り直してオーバーヘッドを排除しました。
- 単一のDGX Spark(GB10)でのベンチマークでは、複数のモデルに対して高いトークン速度が報告されており、Qwen 35Bでは持続で100トークン/秒超となっています。
- AtlasはNVIDIA Blackwell SM120/121向けに手チューニングされたCUDAカーネル(attention、MoE、GDN、Mamba-2など)を採用し、Multi-Token Prediction(MTP)の推測デコードでデコード性能の向上を狙っています。
- Dockerの簡単なコマンドで利用でき、今後はStrix Haloなど他のハードウェアへの移植や、将来のRTX 6000 Pro Blackwell対応も予定されています。




