GB10 Solution Atlasがオープンソース化—コミュニティ向け推論エンジン（Qwen3.6-35B-FP8で100+トークン/秒）

Reddit r/LocalLLaMA / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

GB10 Solution Atlasの推論エンジンがオープンソースとして公開され、RustとCUDAで構築されておりPyTorch/Pythonランタイムを使わないため、非常に高速なコールドスタートと小型のコンテナイメージを実現しています。
DGX Spark上でのボトルネックがシリコンではなく、プロンプトからGPUまでの間にある20GB超の汎用Python処理にあったとして、HTTPハンドラからカーネルディスパッチまでを作り直してオーバーヘッドを排除しました。
単一のDGX Spark（GB10）でのベンチマークでは、複数のモデルに対して高いトークン速度が報告されており、Qwen 35Bでは持続で100トークン/秒超となっています。
AtlasはNVIDIA Blackwell SM120/121向けに手チューニングされたCUDAカーネル（attention、MoE、GDN、Mamba-2など）を採用し、Multi-Token Prediction（MTP）の推測デコードでデコード性能の向上を狙っています。
Dockerの簡単なコマンドで利用でき、今後はStrix Haloなど他のハードウェアへの移植や、将来のRTX 6000 Pro Blackwell対応も予定されています。

The GB10 Solution Atlas is now open source, the inference engine made for the community with breakneck inference speeds (Qwen3.6-35B-FP8 100+ tok/s)

皆さんの中には、DGX Spark上でQwen3.5-35Bを使って102 tok/sの安定稼働が出せた、という数週間前の投稿を見た方もいると思います。多くの方から「いいね、コードはどこ？」と聞かれました。今日はその日です：Github

Atlasはオープンソースです。 純粋なRust + CUDAで、PyTorchもPythonランタイムも不要。約2.5 GBのイメージで、<2分のコールドスタートです。Sparkでのボトルネックがシリコンではなく、プロンプトとGPUの間に挟まった20GB超の汎用的なPython機構だったため、HTTPハンドラからカーネルディスパッチまで、スタック全体を書き直しました。Atlasを開発者向けにさらに進化させ続けるために、コミュニティの支援が必要です。

単一のDGX Spark（GB10）での数値：

Qwen3.5-35B（NVFP4、MTP K=2）：ピーク130 tok/s、約111 tok/s維持 → テスト時3.0–3.3倍 vLLM

Qwen3.5-122B（NVFP4、EP=2）：約50 tok/sデコード

Qwen3-Next-80B-A3B（NVFP4、MTP）：約87 tok/s

Nemotron-3 Nano 30B（FP8）：約88 tok/s

サイト上の全モデル行列（Minimax2.7、Qwen3.6、Gemmaも！）

実際に何が違うのか：

Blackwell SM120/121向けに手でチューニングしたCUDAカーネル。つまり attention、MoE、GDN、Mamba-2。汎用のフォールバックはありません。

テンソルコア上でのNVFP4 + FP8ネイティブ対応

デコード時の最大3倍スループットを狙う、MTP（Multi-Token Prediction）スペキュラティブデコーディング

同一ポートでOpenAI + Anthropic APIに対応。Claude Code、Cline、OpenCode、Open WebUIとも最初からそのまま連携できます

試してみてください（2つのコマンド）：

docker pull avarok/atlas-gb10:latest sudo docker run -d --name atlas --network host --gpus all --ipc=host 
 -v ~/.cache/huggingface:/root/.cache/huggingface 
 avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 
 --port 8888 --speculative --enable-prefix-caching

特にSpark以外の方に向けた次の動き： 現在Spectral Computeと連携してStrix Halo向けのポートに取り組んでおり、AMDからはそれを適切に行うためのハードウェア提供も受けています。RTX 6000 Pro Blackwellもロードマップに入っています。同じカーネル思想を、チップごとに最適化して適用します。20枚のチップをひどくやるより、4枚のチップをきちんとやりたいのです。

X/Twitter
Site
Discord

一日中コメント欄にいます。イレギュラーケース、変わったモデル、壊れた設定などを投げてください。ロードマップは本当にコミュニティ主導です。Discordの誰かがMInimax M2.7を求めてくれたことで、MInimax M2.7が実際に着地しました。

submitted by /u/Live-Possession-6726
[link] [comments]