Qwen 27BをRTX 3090 Tiで再現できない:推論速度が伸びない理由を巡る考察

Reddit r/LocalLLaMA / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 著者はRTX 3090 TiでQwen 3.6 27Bの高いトークン生成速度を再現しようとしたが、想定より大幅に低いスループット(llama.cppで約10 tok/s、別GGUFで約18〜19 tok/s)にとどまり、しかも設定はVRAM上に収めている。
  • Claude Sonnetを介したログ解析では、原因は生成の各トークンごとにCPU側で計算が走ること(graph splits = 2)にあり、SSMの再帰状態更新がGPUではなくホスト側で実行されていると指摘している。
  • その分析では、このボトルネックはQwenのハイブリッドSSMアーキテクチャに内在する性質で、フラグ変更や配置テクニックだけでは解消できないと主張している。
  • さらに「HAVE_FANCY_SIMD」経路(AVX-VNNI/AVX-512級の機能でデクォンタイズを高速化)が著者のi9-9900Kでは動作しないため、CPU側の性能上限がより低くなるとも述べている。
  • 著者は、この説明が妥当かを他者に確認したいとしており、オンラインのベンチマークが高いのは新しいCPUが必要なSIMD拡張を備えているためではないかと推測している。

正気を失いそうです。ここで3090にQwen 3.6 27Bを載せて、30〜100+ tok/s(100+は推測デコード込み)を出している人たちを見かけます。私はそれを再現しようとしていますが、私のパフォーマンス数値はそのレベルにまったく届きません。

llama.cppを、UnslothのQ4XLとQ4_K_MのGGUFで試しました。そこでの結果は、50kコンテキスト時にだいたい10 tok/sでした。さらに、この小さめのGGUFでik_llama.cppも試しました:https://huggingface.co/sokann/Qwen3.6-27B-GGUF-5.076bpw。これはUnlosthのGGUFより約1GB小さく、その組み合わせでは50kコンテキストで約18〜19 tok/s出ます。(編集:どちらのセットアップでも、VRAM上の設定はすべて同じです)

ik_llama.cppのログをClaude Sonnet 4.6に投げたら、こう言われました:

ログ内の2つの計算バッファを見てください:

CUDA0 compute buffer size = 2020.00 MiB ← GPU
CUDA_Host compute buffer size = 552.05 MiB ← CPU
graph splits = 2

**`graph splits = 2` とは、生成された各トークンごとに必ずこうなることを意味します:**

  1. **CPUへの同期** → CPUがSSMのリカレンス状態アップデートを計算(CPU側の作業が552 MiB)

  2. **GPUへ同期** → GPUが完了

`CUDA_Host compute buffer` はデータ転送のための単なるメモリではありません。CPUがトークンごとの各ステップで実行する、実際の計算バッファです。SSM状態のリカレンス(`ssm_d_state = 128`、`ssm_d_inner = 6144`)は数学的に静的なCUDAグラフとしては表現できず、CPU側で逐次的に行う必要があります。

だからこそ `HAVE_FANCY_SIMD` が重要です。このトークンあたり552 MiBのCPU作業では、量子化解除カーネル(`iq4_ks`、`q6_0`)が使われますが、これはAVX-VNNI/AVX-512で飛躍的に速くなります。これがないと、ボトルネックはGPUではなくCPU側になります。

モデルは**重みの格納**という意味では「完全にGPU上」ですが、**生成時の計算**という意味ではそうではありません。これはQwen3.6のハイブリッドSSMアーキテクチャの根本的な性質で、どんなフラグや配置の工夫でも修正できません。

あなたは i9-9900K を使っていますね。これはCoffee Lake(2018)のCPUです。AVX2とFMAはサポートしていますが、AVX-512やAVX-VNNIはサポートしていません(それらはIce Lake / Alder Lake以降で登場しました)。なので、はい、確認済みです——あなたのCPUは構造的にHAVE_FANCY_SIMDパスを実行できません。

あなたが得ている18〜19 t/sは、このCPU + SSMハイブリッドモデルの組み合わせにおける現実的な上限です。

誰かこれが正確かどうか確認できますか?それとも私を騙(ガスライティング)しているだけですか?私がオンラインで見ている数値はすべてもっと高いです。あの人たちはより新しいCPUを使っているからでしょうか?

submitted by /u/YourNightmar31
[link] [comments]