なので、下記を動かしていて、TurboQuant_plus でこのセットアップを走らせている人たちがいて、35トークン/秒出ているのを見かけました。今出ている速度は許容できるのですが、30〜35まで出せたら、もうめちゃくちゃ嬉しいです。設定について何かアドバイスはありますか?
OK、私は Llama の2種類を動かしています。標準版と、Qwen3.6-35B-A3B-UD-IQ4_XS を使った TheTom's TurboQuant_plus です。
ハードウェア:MSI Stealth 13v - i7-13620H(10コア / 16スレッド、6つのPコア)- 64GB 5200 - 4TB NVMe
こちらが使用している設定です:
[1] Qwen 3.6 35B MoE ───────────────────────────────
Model: Qwen3.6-35B-A3B-UD-IQ4_XS.gguf
Context: 40,960 トークン
GPU: NGL 99 — ハイブリッド MoE(RAMに35 expert layer、残りはGPU)
K cache: q8_0(protected — Qwen アーキテクチャはKに敏感)
V cache: q4_0(V圧縮は非可逆ではない—非対称KV論文ごとのlossless)
Flash: on | Batch: -b 2048 -ub 2048
Extras: --reasoning-budget 4096 | -np 1 | --cache-ram 0
LLAMA_CHAT_TEMPLATE_KWARGS={"preserve_thinking":true}
Speed: 約25 t/s(単純)/ 約17 t/s(重めの思考) | VRAM: 約7.0 GB
Use: OpenCode のデフォルト、速度優先のタスク
[2] Qwen 3.6 35B MoE ───────────────────────────────
Model: Qwen3.6-35B-A3B-UD-IQ4_XS.gguf
Context: 196,608 トークン ← このサイズで6.8 GBになることを確認
GPU: NGL 99 — フルCPU MoE(-cmoe、全256 expertをRAMに)
K cache: q8_0(protected)
V cache: turbo3(3.125 bpv — turboで部分分割によって /// が起きるが、フルCPUなら安定)
Flash: on | Batch: -b 2048 -ub 2048
Extras: --reasoning-budget 4096 | -np 1 | --cache-ram 0
Speed: 約19-21 t/s | VRAM: 6.8 GB
品質: テストしたタスクでは Non-Quant と区別できない
Use: 長いコンテキストの作業で、VRAMの余裕が必要なとき
それぞれに同じプロンプトを渡しました。やや複雑な数学問題で、商用の建設における特定の用途のための python クラス推定器(estimator)を書かせるよう指示しました。
その後、結果を比較し、コードを Claude Code に通しました。
- 標準(Non-Quant)は 17.55 t/s で 5分41秒かかり、166行のコードを書きました。
- TurboQuant_plus 版は 19.43 で 4分35秒かかり、104行のコードを書きました。
┌──────────────────┬─────────────────┬────────────┐
│ │ Mega(標準) │ TurboQuant │
├──────────────────┼─────────────────┼────────────┤
│ VRAM │ 7.0 GB │ 6.8 GB │
├──────────────────┼─────────────────┼────────────┤
│ Context │ 40k │ 192k │
├──────────────────┼─────────────────┼────────────┤
│ 生成トークン │ 5,988 │ 5,359 │
├──────────────────┼─────────────────┼────────────┤
│ 時間 │ 5分41秒 │ 4分35秒 │
├──────────────────┼─────────────────┼────────────┤
│ t/s │ 17.55 │ 19.43 │
└──────────────────┴─────────────────┴────────────┘
コードを比較のために Claude Code に通したのですが、どちらもまったく十分に許容できる内容です。ただ、TurboQuant のコードのほうが精度が 2〜3% より高かったです。大したことのなさそうに聞こえますが、今回は特定の留め具数量(fastener quantity)の計算方法に関係していて、現実の世界(IRL)だと高くつく可能性があります。完全に正直に言うと、誤差は極めて小さいものの、それでも存在します。
つまり TurboQuant は、単に20%速くなっただけでなく、結果は標準版と同等かそれ以上の精度で、さらに 192K のコンテキストウィンドウが得られます。参考までに 262K で動かしましたが、7.8GB VRAM まで到達してしまい、私にとってはギリギリすぎます。
全体としては、私のハードウェアなら十分に許容範囲です。ただ、もし何とかしてトークン/秒をさらに増やせる方法があるなら、ぜひ聞きたいです。Llama は比較的新しくて、主に ollama と LMStudio を使っています。
[link] [comments]




