Qwen 3.6:Q8を50 t/sで使うか、Q4を112 t/sで使うか?

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 投稿は、Qwen 3.6の量子化モデルについて、Q8(50 t/s)とQ4(112 t/s)のどちらをローカル推論ハーネス(piのような環境)で選ぶべきかをどう考えるかを尋ねています。
  • 著者はQ4について、131kのコンテキスト長を設定し、明確なタスクで2回のコンパクティングを行っても挙動が崩れず非常に一貫して信頼できたと報告しています。
  • 著者は次にQ8のテストを始める予定で、Q8とQ4の実運用上の違いとして何が期待できるのか意見を求めています。
  • 全体として、精度重視(Q8)とスループット重視(Q4)のトレードオフ、特に長いコンテキストや頑健性が重要な実行での選び方に焦点があります。

piのようなハーネスで使うことを考えて、2つのどちらを選ぶかを考える際に、どのような方法がありますか?

昨日q4でかなり良い部分を試したのですが、とても一貫していて信頼できたので、131kのコンテキストに設定していました。そして、はっきり定義されたタスクを2回のコンパクティングを通しても、全体をめちゃくちゃにすることなく動いていました。今回の前進にはとてもワクワクしています。

今日はq8で作業を始めるつもりですが、2つの間で期待できる違いの種類について、あなたの印象を知りたくなりました。

投稿者 /u/GotHereLateNameTaken
[リンク] [コメント]