昨日仕事の後、しばらく新しい qwen3.6-35b-a3b モデルを試してみたのですが、少なくとも私にとっては、ローカルモデルが「実際に割に合うほどではないのに、使う手間が大きい」と感じたのが初めてでした。
ここ数か月、個人的/使い捨てのプロジェクトで LLM を使ってきました。情熱を持って書きたいと思わないようなタイプのコード、例えば Avalonia のほとんどの UI XML、組み込みシステムの C++ などです。以前は Github の学生プログラムのおかげで Sonet と Opus が無料だったのですが、それが打ち切りになりました。私もかなり前からローカルモデルを試してきたのですが、これまでのところでは、だいたいの場合「仕事をやり遂げるには賢さが足りない」か、「完了させることはできるが、コードの修正/微調整/整形/リファクタリングにものすごく時間を使ってしまう」かのどちらかだと感じていました。だったら、いっそ自分でやった方がましだった、という状況です。
Qwen3.6 はついにそれを変えたようです。少なくとも私の環境とプロジェクトでは。5090 + 4090 で動かすと Q8 モデルをフルの 260k コンテキストで読み込めますし、1 秒あたり約 170 トークンという速度も、私が試した中では最速クラスの 1 つにしています。さらに、私が最近試した他のすべてのモデル(Gemma 4 を含む)と違って、実際にタスクを完了でき、最後に軽微な誘導や修正が必要なだけです。10 回中 9 回は、単に「終わったら自分の変更を見直して」と頼むだけで、間違っていた点を見つけて修正してくれます。
かなり感心しましたし、ローカルモデルがようやくここまで来たのを見るのは本当に面白いです。この技術が、巨大なデータセンターやサブスクリプションサービスに限られるのではなく、ミドルレンジのコンピュータでもそれを活用できるよう最適化される未来に希望が持てます。
[link] [comments]



