~12GB VRAM搭載環境と3080で、qwen3.6 35BA3B（260k ctx）に対して40tg/sをGPoUrする

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

本投稿では、TheTomのGPU加速ターボクォント（turbo3）が、Qwen3.6 35BA3Bファミリーに対して高いコンテキスト性能を実現し、3080で約~40 tok/sを達成したと報告している。
CUDAを用いた具体的なllama-serverのビルドおよび実行時設定を提示し、FA_ALL_QUANTSやCUDA F16など複数の量子化関連フラグ、ならびにturbo3のKVキャッシュ設定を含めている。
対象は約260kのコンテキストウィンドウ（「260k ctx」と記載）で、Qwen3.6 35B A3BのGGUFをQ4_K_M量子化でロードする構成になっている。
著者は「reasoning off」を使用し、Qwen推奨のサンプリング／サービング設定により、段階的なプロンプトハーネス（ask → validate → review → refine/accept）を通して「最初に許容できる解」を得るまでの時間（time-to-first-acceptable-solution）を改善していると述べている。
全体として、本記事は比較的限られたGPU VRAMで長いコンテキストを扱うQwen3.6モデルを動かすための、実践的なチューニング手順として機能している。
Point 2

The TheTom's turboquant's GPU accelerated turboquant (turbo3) has unlocked high context gains for the 35BA3B family.

これで、以下のGPU-POORなコンパイルフラグと設定により、~40tg/sを達成できます：

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON ./local/bin/llama-cpp-turboquant/llama-server \\ --alias 'Qwen3-6-35B-A3B-turbo' \\ --ctx-size 0 \\ --fit on \\ --no-mmproj \\ --jinja \\ --flash-attn on \\ --cache-type-k turbo3 \\ --cache-type-v turbo3 \\ --reasoning off \\ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M \\ --temp 0.6 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0

これは思考オフのためのqwen3.6の推奨設定を使用しています。というのも、「ask（質問）」「validate（検証）」「review（見直し）」「refine/accept（改善/承認）」という段階を持つプロンプト・ハーネスの方が、最初の許容できる解決までの時間（time-to-first-acceptable-solution）が良いと感じるからです。

投稿者 /u/herpnderpler
[link] [comments]