Qwen3.5-397BはQ2で驚くほど役に立つ

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿では、Qwen3.5-397BをQ2(UD_IQ2_M weights、ディスク上で約122GB)に量子化したものが、ローカル推論で意外にも十分に実用になると報告している。これまでQ2は大半が信頼できないという経験があったのに対し、今回の結果はそれに反するものとなっている。
  • Ryzen 9 3950X、96GB DDR4、各48GB VRAMのデュアルGPU、そしてllama.cpp(ROCm)を用いたLocalLLaMAに適したワークステーションで、著者は生成で約11 tokens/sec、ウォームアップ後はプロンプト処理で最大約120 tokens/secを観測している。
  • 出力品質については、このモデルはコーディングおよび知識・トリビア系のタスクで強いとされ、著者のテストでは、より大きいモデルや別の量子化構成のモデルをいくつか上回ったという。
  • 著者は限界も指摘している。幻覚は依然として起こり得ること、さらに「reasoning budget」(推論予算)なしで動かすと自己修正の能力が下がるため、推論トークンを使うことが望ましいという。
  • まとめとして、著者のシステムで動かせる中では最良のモデルに見えるため、Q2のQwen3.5-397Bを試してみることを実用的に推奨している。加えて、同様のローカル環境を使う他の人にも広く役立つ可能性がある。

クイックスペックです。これは、時間をかけてだんだんとLocalLLaMa向けのものへと“変化”していったワークステーションです:

  • 3950x

  • 96GB DDR4(デュアルチャネル、3000mhzで動作)

  • w6800 + Rx6800(48GBのVRAMを約512GB/sで)

  • ほとんどのテストは約20kコンテキストで実施;kv-cacheはq8_0

  • ROCMでllama cppのmainブランチ

使用したモデルはUnslothのUD_IQ2_Mウェイトで、ディスク上で約122GBです。Qwen3-235B以降、Q2レベルの量子化ではうまくいかなかったので、このテストも最近の自分のテストと同様“使い捨て”になるだろうと考えていましたが、実際にはそれがかなり(かなり)良く、しかもある程度実用に足ります。

性能について: ウォームアップ(トークン生成を2〜3分)させた後、次のような結果が出ています:

  • 約11トークン/秒(token-gen)

  • 短いプロンプトでは約43トークン/秒のprompt-processing、長いプロンプトでは約120t/s(長いエージェント的なワークフローでPP速度を記録していないので、キャッシュの恩恵がどの程度見えるかは確認できていません)

そのprompt-processingはインタラクティブなコーディングセッションには少し下回っていますが、24/7のエージェントループではかなりのことができます。

出力の品質について: コーディングが信じられないほど上手く、コーディングおよび知識タスクでQwen3.5 27B(フル)、Qwen3.5 122B(Q4)、MiniMax M2.5(Q4)、GPT-OSS-120B(フル)、そしてGemma 4 31B(フル)に勝っています(正解度合いが異なり得る、長めの雑学質問セットを保持しています)。推論出力の中で幻覚を拾うこともできます(どんなQ2でも不可能というわけではないと思います)が、すぐに軌道修正してくれます。推論予算を使わずに遊んでみることもしましたが、幻覚を訂正できないので、推論トークンなしで使うことはおすすめしません。

この投稿の狙い: 要するに、ここ数か月の間に自分が見つけた“Q2以下”は、ほぼ全部が使い物になりませんでした。そこで、数人の人にQwen3.5-397Bを挙げて、ぜひ一度試してみてほしいと思いました。自分のシステムで動かせるモデルの中で、突然いちばん強くなっていて、あなたの環境でも良いかもしれません。

submitted by /u/EmPips
[link] [comments]