| RTX 2000 ada(16GB VRAM)で、p3 tiny gen 2 を使っています。熱くなるので、冷却用にファンハンガーを設計して3Dプリントしました。ばかげてるけど、Claude Codeみたいな感覚で、ただ無制限です。 [リンク] [コメント] |
1Lの「Claude Code」で使うQwen 3.6
Reddit r/LocalLLaMA / 2026/4/17
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Redditのユーザーが、制約のある環境(RTX 2000 Adaの16GB VRAM)で、「Claude Code」(cc/Claude Code)上にローカルでQwen 3.6(35B、Q4KM量子化)を動かした報告をしており、実用的な性能観察を共有しています。
- 使用中にシステムが「熱くなる」ため、熱対策として「ファン用のハンガー」を3Dプリントしたと述べています。
- ユーザーは、投稿内でリンクされているllama.cppの特定の変更/PRが、Claude Codeとの統合をうまく機能させるために必要だったと評価しています。
- さらに、(変更によって有効化された)プロンプト側のプレフィックスをキャッシュすることで、これらの「新しい道具」に対するスループットと全体的な応答性が大幅に向上すると強調しています。
- 報告されている数値として、生成は約24 t/s、プロンプト側のスループットは非常に高く(約400 t/s)であり、ローカルのハードウェアでもワークフローを効率化できることを示しています。



