| Here is how to run the new Qwen3.6-35B-A3B > At full context on a 4090 - IQ4_XS gguf with llama cpp > At full context on a Spark - FP8 with a tweaked vLLM Here is the docker compose with llama cpp Here is the docker compose with vllm [link] [comments] |
Running the new Qwen3.6-35B-A3B at full context on both a 4090 and GB10 Spark with vLLM and Llama.cpp
Reddit r/LocalLLaMA / 4/17/2026
💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
Key Points
- Qwen3.6-35B-A3Bを「フルコンテキスト」で動かす具体例として、4090ではllama.cpp(IQ4_XS gguf)を用いる構成が示されています。
- 同じくフルコンテキスト対応として、Spark(推定GB10)ではvLLMでFP8モデルを提供する構成と起動パラメータ(GPUメモリ利用率など)が提示されています。
- llama.cpp側のdocker-compose例では、--ctx-size=262144や--n-gpu-layers=999、flash-attnやキャッシュ設定(K/V)を含む詳細な実行オプションが記載されています。
- vLLM側では、pandasを追加したcu130-nightly系のDockerfileが必要になる可能性に言及し、--reasoning-parserやツール呼び出し関連のオプションも含めた起動例が示されています。
- 両方の構成とも、コンテナ化(docker compose)とモデルのマウント、ポート公開、NVIDIA環境変数・IPC設定など運用に直結する手順がまとまっています。
Related Articles

Black Hat USA
AI Business

Black Hat Asia
AI Business
The AI Hype Cycle Is Lying to You About What to Learn
Dev.to
Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
OpenAI Codex April 2026 Update Review: Computer Use, Memory & 90+ Plugins — Is the Hype Real?
Dev.to