OpenCodeでQwen3.6が驚くほど良い

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、これまで試したローカルのコーディング用モデル(Gemma 4を含む)よりもQwen3.6の出来が明確に良く、Claude Codeに頼らず日常的なコーディング用途にも使えそうだと報告しています。
  • Rust/TypeScript/Pythonの複数サービスを抱えるコードベースで、PostgresのRow-Level Security(RLS)を実装するという難しい課題で、モデルはコンパイラのエラーを手がかりにしながら反復し、良い解決策を出せたとされています。
  • 完璧ではなく重大な不足やバグもあるものの、著者はモデルが迷走せずに適切に方針を修正できる点を強調しています。
  • モデルが広範な編集(29ファイル)を提案した後、やり直しの指示を受けて、変更量を抑える「リクエスト受け付け時にDB接続を取得し、ユーザーにスコープする」解決策へとたどり着いたと述べています。
  • 実行環境として、RTX 4090(VRAM 24GB)でllama.cppローカル実行し、文脈長262kなどの設定や、Opencodeの並列ツール呼び出しによってOOMクラッシュを避けるためのllama.cppフラグ指定も共有されています。

過去にいくつかのローカルモデルを試してきました(最新だとgemma 4)けど、どれもこれほど良い感じはしませんでした。(あるいは、ちゃんと試す時間を与えていなかっただけなのかもしれません。みなさん教えてください)。でもこれは本当に、Claude Codeに手を伸ばす代わりに、特定のタスクを日常的に任せられるようなモデルに感じます。

かなり複雑なタスクとして、複数のサービスが動いていてコードベースもそこそこ大きい postgres 上でのRLS(Row Level Security)を実装することを、取り組ませてみました。Rust、TypeScript、Pythonで書かれた複数サービスです。最初は全く期待していなかったのですが、素晴らしい仕事をしてくれました。PR: https://github.com/getomnico/omni/pull/165/changes/dd04685b6cf47e7c3791f9cdbd807595ef4c686e

今は完璧とは程遠く、大きな穴もいくつか、重大なバグもいくつかありますが、いやもう、これめちゃくちゃ良いです。Opusみたいに一発でRustを通し切るわけではないのですが、コンパイラのエラーを見て、迷子にならずに反復できています。

計画→構築→計画…というラウンドを複数回行う、かなり長めのコーディングセッションがありました。ある時点では、すべてのDBクエリにRLSを適用するために、29ファイルを書き換えるという方針に進んでしまったのですが、それはそれで良かったものの、こちらから介入して「考え直して、なるべく変更量(churn)を抑える別の選択肢も見て」と頼みました。すると、正しい解を見つけました。データベース接続を確保し、着信リクエストの最初でそれをユーザーにスコープする、という形です。

初めて、本当に能力の高いローカルのコーディングモデルと話しているような感覚がありました。

私のセットアップ:

  • Qwen3.6-35B-A3B, IQ4_NL unsloth quant
  • llama.cpp経由でローカルにデプロイ
  • RTX 4090、24GB
  • KVキャッシュ量子化: q8_0
  • コンテキストサイズ: 262k。 このctxサイズでは、VRAM使用量は約21GBです
  • Thinkingを有効化。推奨設定のtemp、min_pなどを使用

llama server:

```
docker run -d --name llama-server --gpus all -v <path _to _models>:/models -p 8080:8080 local/llama.cpp:server-cuda -m /models/qwen3.6-35b-a3b/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf --port 8080 --host 0.0.0.0 --ctx-size 262144 -n 8192 --n-gpu-layers 40 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --parallel 1 --cache-type-k q8_0 --cache-type-v q8_0 --cache-ram 4096
```

`--parallel` と `--cache-ram` を設定しないと、llama.cppがOOMでクラッシュしてしまうので設定が必要でした。opencodeが大量の並列ツール呼び出しを行い、そのせいでプロンプトキャッシュが爆発するからです。これで100+出力トークン/秒が出ます。

でも、これがそれかもしれませんね…ローカルコーディングのホーリーグレイル!少なくとも、それにかなり近いところまでは来ていると思います。

submitted by /u/CountlessFlies
[link] [comments]