1Lの「Claude Code」で使うQwen 3.6

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditのユーザーが、制約のある環境（RTX 2000 Adaの16GB VRAM）で、「Claude Code」（cc/Claude Code）上にローカルでQwen 3.6（35B、Q4KM量子化）を動かした報告をしており、実用的な性能観察を共有しています。
使用中にシステムが「熱くなる」ため、熱対策として「ファン用のハンガー」を3Dプリントしたと述べています。
ユーザーは、投稿内でリンクされているllama.cppの特定の変更／PRが、Claude Codeとの統合をうまく機能させるために必要だったと評価しています。
さらに、（変更によって有効化された）プロンプト側のプレフィックスをキャッシュすることで、これらの「新しい道具」に対するスループットと全体的な応答性が大幅に向上すると強調しています。
報告されている数値として、生成は約24 t/s、プロンプト側のスループットは非常に高く（約400 t/s）であり、ローカルのハードウェアでもワークフローを効率化できることを示しています。

https://preview.redd.it/a96i13zyemvg1.png?width=374&format=png&auto=webp&s=d1850127462849eab4ff37a3e10159d092bcc994

RTX 2000 ada（16GB VRAM）で、p3 tiny gen 2 を使っています。熱くなるので、冷却用にファンハンガーを設計して3Dプリントしました。ばかげてるけど、Claude Codeみたいな感覚で、ただ無制限です。
ただし、cc で llamacpp がうまく動くようにするために、この PR の変更を使う必要がありました： https://github.com/ggml-org/llama.cpp/pull/21793/
Qwen 3.6 35b a3b q4km unsloth、400 t/s のプロンプト、24 t/s の生成。プロンプト接頭辞をキャッシュできるようになった変更のおかげで、こうした新しいツールが何を生み出せるのかに驚いています。皆さん、良い一日を。誰かに <3 自分の体験を共有したかっただけです

投稿者 /u/brickinthefloor
[リンク] [コメント]