qwen3.5 122bが出たときにテストしましたが、本当に気に入りました。開発テストの用途では、(コーディング用の現行AIツールである)gemini 3 flashといい勝負でした。なのでハードウェアに投資しようと思ったのですが、問題は新しいマザーボードが必要で、さらに(1台、または追加で)3090を2枚ほしいという点です。とはいえ、現状の価格があまりにも高すぎます。
qwen3.5 27bのほうが122bより優れていると言う投稿をたくさん見かけましたが、正直それは私にはしっくり来ませんでした。次にnemotron 3 super 120bを見つけましたが、「qwen3.5 122bより良いわけではない」と言っている人がいて、私はそれを信じました。
昨日と今日、これらのモデルをすべてテストしました:
"unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL"
"unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL"
"unsloth/Qwen3.5-122B-A10B-GGUF"
"unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL"
"unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL"
"unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS"
"unsloth/gpt-oss-120b-GGUF:F16"
比較しやすいように、gpt-5.4 highに対してもテストしました。
私の驚きですが、nemotronは非常に、非常に良いモデルで、gpt-5.4といい勝負でした。さらにqwen3.5-25bもかなり良い出来でした。
残念ながら(しかしそれも良い点で)gpt-oss 120bとqwen3.5 122bは、他の2つのモデルよりも成績が悪かったです(より多くのハードウェアが必要になるので、ある意味納得できます)。
なので、実開発タスクをローカルで行うために「Qwen3.5-27B-GGUF:UD-Q6_K_XL」をようやく本格的に使えます。ベストなのは、これ以上ハードウェアを買い足す必要がないことです(すでに3090を2枚持っています)。
十分な情報を提供できなくてすみませんが、全モデル分のtg/ppは保存していませんでした。nemotronは80 tg、約2000 ppで動作し、4枚のrtx 3090とvast.ai上で100k context、Qwen3.5-27BのQ6は803ppで25 tg、256k contextでした(こちらもvast.aiです)。
おそらく来週には、生産利用のためにローカル環境でセットアップする予定です。
以下が私が使ったコマンドです(ほぼunslothのページからコピペです):
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999 追伸:
実際にAPIサブスクリプションを(少なくとも日々のタスクに関しては)置き換えられることが嬉しいです。複雑なタスクには引き続きCODEXを使います。
もし、nemotron-3-super 120bが必要とするハードウェアが手元にあれば、こちらを代わりに使っていたでしょう。ほかのモデルは英語で返答していたのに対し、nemotronは私の言語(スペイン語)で常に応答してくれました。
[link] [comments]