【Qwen3.6 35B a3b】8GB VRAM環境でQ4_K_MよりQ4_K_XL(Unsloth)の方が少ない出力トークンでわずかに高速だったという報告

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、8GB VRAM / 32GB RAMのローカル環境でQwen3.6 35B(a3b)を検証し、CtxSize 131,072・GpuLayers 99・K/Vキャッシュをq8_0にする高めの構成で試しました。
  • その結果、UnslothのQ4_K_XL量子化モデルはQ4_K_Mよりわずかに高速で、tokens/secが高く平均ウォールタイムも短い(約7.5%高速)という測定結果が示されました。
  • XLモデルは平均出力トークン数も少なく(約4.5%減)、メモリ使用量が多いにもかかわらず全体の応答性が良くなった要因になっています。
  • ユーザーは、MoEモデルはストレージからRAMへ必要なものを読み込むため、初回のスローダウン(約33%)にはタイミング計測に関するバグが絡んでいる可能性があるとしています。5回繰り返しても現実的な利用手順では含まれてしまったとのことです。
  • 結論として、この特定のハードとワークフローでは、同じトップ構成の下でQ4_K_MよりQ4_K_XLの方が速度/効率のトレードオフとして有利になり得る、という示唆です。

設定

  • CtxSize: 131,072
  • GpuLayers: 99
  • CpuMoeLayers: 38
  • Threads: 16
  • BatchSize/UBatchSize: 4096/4096
  • キャッシュタイプ K/V: q8_0
  • ツール コンテキスト: file mode(tools.kilocode.official.md)
指標 M モデル XL モデル
平均 Tokens/sec 28.92 29.78 +0.86(+3.0%)
中央値 Tokens/sec 30.96 32.08 +1.12(+3.6%)
平均 Wall 秒 108.03s 99.93s -8.10s(-7.5%)
平均 出力 Tokens 3,031.8 2,895.8 -136(-4.5%)
平均 入力 Tokens/sec 50.20 55.96 +5.76(+11.5%)
平均 デコード Tokens/sec 75.89 76.44 +0.55(+0.7%)

最初の1回目は約33%遅いです。理由は、私のコードにバグがあって初期化(開始)時間が含まれてしまっているからです。ご存じのとおり、moeモデルではストレージからRAMへ渡す必要があります。これを打ち消そうと思って5回実行してみましたが、それでも含まれてしまいました。なぜなら、現実的にはそうやって使うからです(オンにする、1回使う、何かを実行するためにオフにする、など)。

投稿者 /u/EggDroppedSoup
[link] [コメント]