Qwen 3.6は、(自分にとって)本当に手間をかける価値があると感じた最初のローカルモデル

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 投稿者は、qwen3.6-35b-a3bモデルを試したところ、初めて「ローカルLLMが面倒なわりに得るものが少ない」と感じずに済んだと述べています。
  • それ以前のローカルモデルは、能力不足で役に立たないか、作業後に修正・調整・整形・リファクタリングに多くの時間を要する傾向があったのに対し、Qwen 3.6は軽い指示や最後の微修正でタスクを完了できたとされています。
  • 5090+4090という構成で、Q8モデルを最大260kのコンテキスト付きで動かしつつ、約170トークン/秒の速度が出ており、試した中では速い部類だと報告しています。
  • 同じく最近試した他のモデル(Gemma 4を含む)と比べて、Qwen 3.6はミス検出がよりうまく、完了後に自己レビューさせるだけで誤りを直せることが多いと語られています。
  • 全体として、ローカルモデルが効率化されて大規模データセンターやサブスクに限らずミドルレンジPCでも活用できる未来への期待が示されています。

昨日仕事の後、しばらく新しい qwen3.6-35b-a3b モデルを試してみたのですが、少なくとも私にとっては、ローカルモデルが「実際に割に合うほどではないのに、使う手間が大きい」と感じたのが初めてでした。

ここ数か月、個人的/使い捨てのプロジェクトで LLM を使ってきました。情熱を持って書きたいと思わないようなタイプのコード、例えば Avalonia のほとんどの UI XML、組み込みシステムの C++ などです。以前は Github の学生プログラムのおかげで Sonet と Opus が無料だったのですが、それが打ち切りになりました。私もかなり前からローカルモデルを試してきたのですが、これまでのところでは、だいたいの場合「仕事をやり遂げるには賢さが足りない」か、「完了させることはできるが、コードの修正/微調整/整形/リファクタリングにものすごく時間を使ってしまう」かのどちらかだと感じていました。だったら、いっそ自分でやった方がましだった、という状況です。

Qwen3.6 はついにそれを変えたようです。少なくとも私の環境とプロジェクトでは。5090 + 4090 で動かすと Q8 モデルをフルの 260k コンテキストで読み込めますし、1 秒あたり約 170 トークンという速度も、私が試した中では最速クラスの 1 つにしています。さらに、私が最近試した他のすべてのモデル(Gemma 4 を含む)と違って、実際にタスクを完了でき、最後に軽微な誘導や修正が必要なだけです。10 回中 9 回は、単に「終わったら自分の変更を見直して」と頼むだけで、間違っていた点を見つけて修正してくれます。

かなり感心しましたし、ローカルモデルがようやくここまで来たのを見るのは本当に面白いです。この技術が、巨大なデータセンターやサブスクリプションサービスに限られるのではなく、ミドルレンジのコンピュータでもそれを活用できるよう最適化される未来に希望が持てます。

submitted by /u/Epicguru
[link] [comments]