Qwen3.5-9B はエージェント主導のコーディングに実際かなり有用である

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者は RTX 3060（VRAM 12 GB）で複数の Qwen バリアントと量子化を試し、Qwen3.5-9B はエージェント的コーディングタスクに意外にも高い能力を示すことを発見した。
1ビット量子化はツール呼び出しの多くを失敗させ、2ビット量子化は遅く、不安定なこともあり、UD-TQ1_0 は Qwen3-Coder-30B でのコード補完に良好だった。
コーディングに最適化されていない一般的な Qwen バージョンは、小型でハードウェア制約がある場合には性能が良い傾向にあり、Qwen3.5-9B が良いバランスを提供する。
エージェントは1時間以上動作し続けることができ、consumer ハードウェアでこの設定が実現可能であることを強く裏付けた。TL;DR は Qwen3.5-9B (12 VRAM) がエージェント的呼び出しに良く、UD-TQ1_0 はコード補完に良い。

正直、かなり感心しています。私のハードウェアは Nvidia Geforce RTX 3060、VRAM 12 GB で、かなり制限があります。私は自分にとって最適なものを探すために「モデル・ホッピング」をしてきました。
主に Kilo Code でテストしましたが、時には Roo Code も試しました。
元々はカスタマイズしたツール呼び出し用の Qwen 2.5 Coder を使用していました。比較的速かったのですが、ツール呼び出しを行うと通常は失敗しました。

次に、複数の Qwen3-Coder の Unsloth 量子化を試しました。1ビット量子化も比較的速く機能しましたが、ツール呼び出しを行うと通常は失敗しました。とはいえ Continue を用いたコード補完には UD-TQ1_0 を使っており、かなり良好で、小さな Qwen2.5 Coder モデルと比べて体験したものより良いです。2ビット量子化は少しだけ動作が良くなりました（それでも時々失敗します）が、非常に遅く、不安定な感じが強くなりました。

次に、私の元の Qwen 2.5 のテストと同様に、このツール向けにも最適化された Qwen3（14b）も試してみましたが、体験はかなり良くなりましたがまだ少し遅く、8b にすべきだったかもしれません。これらのコード最適化を意図していない一般的な Qwen バージョンは私にはより良く機能していると感じました。おそらく小さくてより適合しやすいからでしょう。したがって Qwen3-8b を試す代わりに Qwen3.5-9b を選びましたが、ここで私は本当に驚きました。

最後にはエージェントが1時間以上動作し、かなりの作業をこなし、自分自身で止まることなく続けられる能力を示しました。

設定は人それぞれだと承知していますが、VRAM が限られたコンシューマー固有のハードウェアで実行している場合、これは素晴らしい進歩だと思います。

TL;DR：Qwen 3.5 (9B) は 12 VRAM でエージェント的呼び出しに実際に非常にうまく機能します。Unsloth-Qwen3 Coder 30B UD-TQ1_0 はコード補完に適しています

投稿者: /u/Lualcala
[リンク] [コメント]