過去にいくつかのローカルモデルを試してきました(最新だとgemma 4)けど、どれもこれほど良い感じはしませんでした。(あるいは、ちゃんと試す時間を与えていなかっただけなのかもしれません。みなさん教えてください)。でもこれは本当に、Claude Codeに手を伸ばす代わりに、特定のタスクを日常的に任せられるようなモデルに感じます。
かなり複雑なタスクとして、複数のサービスが動いていてコードベースもそこそこ大きい postgres 上でのRLS(Row Level Security)を実装することを、取り組ませてみました。Rust、TypeScript、Pythonで書かれた複数サービスです。最初は全く期待していなかったのですが、素晴らしい仕事をしてくれました。PR: https://github.com/getomnico/omni/pull/165/changes/dd04685b6cf47e7c3791f9cdbd807595ef4c686e
今は完璧とは程遠く、大きな穴もいくつか、重大なバグもいくつかありますが、いやもう、これめちゃくちゃ良いです。Opusみたいに一発でRustを通し切るわけではないのですが、コンパイラのエラーを見て、迷子にならずに反復できています。
計画→構築→計画…というラウンドを複数回行う、かなり長めのコーディングセッションがありました。ある時点では、すべてのDBクエリにRLSを適用するために、29ファイルを書き換えるという方針に進んでしまったのですが、それはそれで良かったものの、こちらから介入して「考え直して、なるべく変更量(churn)を抑える別の選択肢も見て」と頼みました。すると、正しい解を見つけました。データベース接続を確保し、着信リクエストの最初でそれをユーザーにスコープする、という形です。
初めて、本当に能力の高いローカルのコーディングモデルと話しているような感覚がありました。
私のセットアップ:
- Qwen3.6-35B-A3B, IQ4_NL unsloth quant
- llama.cpp経由でローカルにデプロイ
- RTX 4090、24GB
- KVキャッシュ量子化: q8_0
- コンテキストサイズ: 262k。 このctxサイズでは、VRAM使用量は約21GBです
- Thinkingを有効化。推奨設定のtemp、min_pなどを使用
llama server:
```
docker run -d --name llama-server --gpus all -v <path
_to
_models>:/models -p 8080:8080 local/llama.cpp:server-cuda -m /models/qwen3.6-35b-a3b/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf --port 8080 --host 0.0.0.0 --ctx-size 262144 -n 8192 --n-gpu-layers 40 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --parallel 1 --cache-type-k q8_0 --cache-type-v q8_0 --cache-ram 4096
```
`--parallel` と `--cache-ram` を設定しないと、llama.cppがOOMでクラッシュしてしまうので設定が必要でした。opencodeが大量の並列ツール呼び出しを行い、そのせいでプロンプトキャッシュが爆発するからです。これで100+出力トークン/秒が出ます。
でも、これがそれかもしれませんね…ローカルコーディングのホーリーグレイル!少なくとも、それにかなり近いところまでは来ていると思います。
[link] [comments]



