~12GB VRAM搭載環境と3080で、qwen3.6 35BA3B(260k ctx)に対して40tg/sをGPoUrする

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 本投稿では、TheTomのGPU加速ターボクォント(turbo3)が、Qwen3.6 35BA3Bファミリーに対して高いコンテキスト性能を実現し、3080で約~40 tok/sを達成したと報告している。
  • CUDAを用いた具体的なllama-serverのビルドおよび実行時設定を提示し、FA_ALL_QUANTSやCUDA F16など複数の量子化関連フラグ、ならびにturbo3のKVキャッシュ設定を含めている。
  • 対象は約260kのコンテキストウィンドウ(「260k ctx」と記載)で、Qwen3.6 35B A3BのGGUFをQ4_K_M量子化でロードする構成になっている。
  • 著者は「reasoning off」を使用し、Qwen推奨のサンプリング/サービング設定により、段階的なプロンプトハーネス(ask → validate → review → refine/accept)を通して「最初に許容できる解」を得るまでの時間(time-to-first-acceptable-solution)を改善していると述べている。
  • 全体として、本記事は比較的限られたGPU VRAMで長いコンテキストを扱うQwen3.6モデルを動かすための、実践的なチューニング手順として機能している。
  • Point 2

The TheTom's turboquant's GPU accelerated turboquant (turbo3) has unlocked high context gains for the 35BA3B family.

これで、以下のGPU-POORなコンパイルフラグと設定により、~40tg/sを達成できます:

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON ./local/bin/llama-cpp-turboquant/llama-server \\ --alias 'Qwen3-6-35B-A3B-turbo' \\ --ctx-size 0 \\ --fit on \\ --no-mmproj \\ --jinja \\ --flash-attn on \\ --cache-type-k turbo3 \\ --cache-type-v turbo3 \\ --reasoning off \\ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M \\ --temp 0.6 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0 

これは思考オフのためのqwen3.6の推奨設定を使用しています。というのも、「ask(質問)」「validate(検証)」「review(見直し)」「refine/accept(改善/承認)」という段階を持つプロンプト・ハーネスの方が、最初の許容できる解決までの時間(time-to-first-acceptable-solution)が良いと感じるからです。

投稿者 /u/herpnderpler
[link] [comments]