The TheTom's turboquant's GPU accelerated turboquant (turbo3) has unlocked high context gains for the 35BA3B family.
これで、以下のGPU-POORなコンパイルフラグと設定により、~40tg/sを達成できます:
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_FA_ALL_QUANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON ./local/bin/llama-cpp-turboquant/llama-server \\ --alias 'Qwen3-6-35B-A3B-turbo' \\ --ctx-size 0 \\ --fit on \\ --no-mmproj \\ --jinja \\ --flash-attn on \\ --cache-type-k turbo3 \\ --cache-type-v turbo3 \\ --reasoning off \\ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M \\ --temp 0.6 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0 これは思考オフのためのqwen3.6の推奨設定を使用しています。というのも、「ask(質問)」「validate(検証)」「review(見直し)」「refine/accept(改善/承認)」という段階を持つプロンプト・ハーネスの方が、最初の許容できる解決までの時間(time-to-first-acceptable-solution)が良いと感じるからです。
[link] [comments]



