正直、かなり感心しています。私のハードウェアは Nvidia Geforce RTX 3060、VRAM 12 GB で、かなり制限があります。私は自分にとって最適なものを探すために「モデル・ホッピング」をしてきました。
主に Kilo Code でテストしましたが、時には Roo Code も試しました。
元々はカスタマイズした ツール呼び出し用の Qwen 2.5 Coder を使用していました。比較的速かったのですが、ツール呼び出しを行うと通常は失敗しました。
次に、複数の Qwen3-Coder の Unsloth 量子化 を試しました。1ビット量子化も比較的速く機能しましたが、ツール呼び出しを行うと通常は失敗しました。とはいえ Continue を用いたコード補完には UD-TQ1_0 を使っており、かなり良好で、小さな Qwen2.5 Coder モデルと比べて体験したものより良いです。2ビット量子化は少しだけ動作が良くなりました(それでも時々失敗します)が、非常に遅く、不安定な感じが強くなりました。
次に、私の元の Qwen 2.5 のテストと同様に、この ツール向けにも最適化された Qwen3(14b)も試してみましたが、体験はかなり良くなりましたがまだ少し遅く、8b にすべきだったかもしれません。これらのコード最適化を意図していない一般的な Qwen バージョンは私にはより良く機能していると感じました。おそらく小さくてより適合しやすいからでしょう。したがって Qwen3-8b を試す代わりに Qwen3.5-9b を選びましたが、ここで私は本当に驚きました。
最後にはエージェントが1時間以上動作し、かなりの作業をこなし、自分自身で止まることなく続けられる能力を示しました。
設定は人それぞれだと承知していますが、VRAM が限られたコンシューマー固有のハードウェアで実行している場合、これは素晴らしい進歩だと思います。
TL;DR:Qwen 3.5 (9B) は 12 VRAM でエージェント的呼び出しに実際に非常にうまく機能します。Unsloth-Qwen3 Coder 30B UD-TQ1_0 はコード補完に適しています
[リンク] [コメント]




