TurboQuant_plus向けのLlama最適設定は？（計測データあり）

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

記事の筆者は、MSI Stealth 13vのノートPC上でローカルのLlama/Qwen構成をベンチマークし、TurboQuant_plus利用時に生成速度を（目標30–35 t/s）上げたいと考えている。
試した構成は、GPUとRAMにエキスパート層を分割して載せるハイブリッドMoE（NGL 99）と、256エキスパートをすべてRAM側で動かすフルCPU MoEの2種類だ。
40kの比較的短いコンテキストでは、ハイブリッドMoEで約25 t/s（重い推論時は約17 t/s）を記録し、VRAM使用量は約7.0GBと報告している。
192kの長いコンテキストでは、フルCPU MoEで約19–21 t/sを達成しつつ、VRAMは約6.8GB使用であるとされている。
数学問題からPythonクラス推定器を生成するテストでは、TurboQuant_plus版の方が所要時間が短い（4分35秒 vs 5分41秒）一方でコード行数は少なめで、結果比較にはClaude Codeが用いられている。

なので、下記を動かしていて、TurboQuant_plus でこのセットアップを走らせている人たちがいて、35トークン/秒出ているのを見かけました。今出ている速度は許容できるのですが、30〜35まで出せたら、もうめちゃくちゃ嬉しいです。設定について何かアドバイスはありますか？

OK、私は Llama の2種類を動かしています。標準版と、Qwen3.6-35B-A3B-UD-IQ4_XS を使った TheTom's TurboQuant_plus です。

ハードウェア：MSI Stealth 13v - i7-13620H（10コア / 16スレッド、6つのPコア）- 64GB 5200 - 4TB NVMe

こちらが使用している設定です：

[1] Qwen 3.6 35B MoE ───────────────────────────────

Model: Qwen3.6-35B-A3B-UD-IQ4_XS.gguf

Context: 40,960 トークン

GPU: NGL 99 — ハイブリッド MoE（RAMに35 expert layer、残りはGPU）

K cache: q8_0（protected — Qwen アーキテクチャはKに敏感）

V cache: q4_0（V圧縮は非可逆ではない—非対称KV論文ごとのlossless）

Flash: on | Batch: -b 2048 -ub 2048

Extras: --reasoning-budget 4096 | -np 1 | --cache-ram 0

LLAMA_CHAT_TEMPLATE_KWARGS={"preserve_thinking":true}

Speed: 約25 t/s（単純）/ 約17 t/s（重めの思考） | VRAM: 約7.0 GB

Use: OpenCode のデフォルト、速度優先のタスク

[2] Qwen 3.6 35B MoE ───────────────────────────────

Model: Qwen3.6-35B-A3B-UD-IQ4_XS.gguf

Context: 196,608 トークン ← このサイズで6.8 GBになることを確認

GPU: NGL 99 — フルCPU MoE（-cmoe、全256 expertをRAMに）

K cache: q8_0（protected）

V cache: turbo3（3.125 bpv — turboで部分分割によって /// が起きるが、フルCPUなら安定）

Flash: on | Batch: -b 2048 -ub 2048

Extras: --reasoning-budget 4096 | -np 1 | --cache-ram 0

Speed: 約19-21 t/s | VRAM: 6.8 GB

品質: テストしたタスクでは Non-Quant と区別できない

Use: 長いコンテキストの作業で、VRAMの余裕が必要なとき

それぞれに同じプロンプトを渡しました。やや複雑な数学問題で、商用の建設における特定の用途のための python クラス推定器（estimator）を書かせるよう指示しました。

その後、結果を比較し、コードを Claude Code に通しました。

標準（Non-Quant）は 17.55 t/s で 5分41秒かかり、166行のコードを書きました。
TurboQuant_plus 版は 19.43 で 4分35秒かかり、104行のコードを書きました。

┌──────────────────┬─────────────────┬────────────┐

│ │ Mega（標準） │ TurboQuant │

├──────────────────┼─────────────────┼────────────┤

│ VRAM │ 7.0 GB │ 6.8 GB │

├──────────────────┼─────────────────┼────────────┤

│ Context │ 40k │ 192k │

├──────────────────┼─────────────────┼────────────┤

│ 生成トークン │ 5,988 │ 5,359 │

├──────────────────┼─────────────────┼────────────┤

│ 時間 │ 5分41秒 │ 4分35秒 │

├──────────────────┼─────────────────┼────────────┤

│ t/s │ 17.55 │ 19.43 │

└──────────────────┴─────────────────┴────────────┘

コードを比較のために Claude Code に通したのですが、どちらもまったく十分に許容できる内容です。ただ、TurboQuant のコードのほうが精度が 2〜3% より高かったです。大したことのなさそうに聞こえますが、今回は特定の留め具数量（fastener quantity）の計算方法に関係していて、現実の世界（IRL）だと高くつく可能性があります。完全に正直に言うと、誤差は極めて小さいものの、それでも存在します。

つまり TurboQuant は、単に20%速くなっただけでなく、結果は標準版と同等かそれ以上の精度で、さらに 192K のコンテキストウィンドウが得られます。参考までに 262K で動かしましたが、7.8GB VRAM まで到達してしまい、私にとってはギリギリすぎます。

全体としては、私のハードウェアなら十分に許容範囲です。ただ、もし何とかしてトークン/秒をさらに増やせる方法があるなら、ぜひ聞きたいです。Llama は比較的新しくて、主に ollama と LMStudio を使っています。

submitted by /u/Snoo_81913
[link] [comments]

Black Hat USA

AI Business

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

Geometric Data Science の構造論 ─ 9 領域・相互作用・未解決問題

Qiita

Claude Codeのスキル入門：2026年の実践ガイド

Dev.to

「エージェント・ギャップ」—SharePointの専門家の熱狂が、なぜか私には冷めて見えた理由

Dev.to

TurboQuant_plus向けのLlama最適設定は？（計測データあり）

要点

関連記事

Black Hat USA

データセンター、新技術が育つ場へ日本の部材産業にチャンス

Geometric Data Science の構造論 ─ 9 領域・相互作用・未解決問題

Claude Codeのスキル入門：2026年の実践ガイド

「エージェント・ギャップ」—SharePointの専門家の熱狂が、なぜか私には冷めて見えた理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

Geometric Data Science の構造論 ─ 9 領域・相互作用・未解決問題

Claude Codeのスキル入門：2026年の実践ガイド

「エージェント・ギャップ」—SharePointの専門家の熱狂が、なぜか私には冷めて見えた理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

データセンター、新技術が育つ場へ日本の部材産業にチャンス