| llama.cpp を使って、RTX 5090 で 200K コンテキストに Qwen3-27B-UD-Q6_K_XL.gguf を実行してみました。だいたい 50 tok/s くらい出ています。まあ大丈夫かな、という感じです。こういうのはよく分からないので、改善の余地はあるかもしれません。ですが言いたいのは、コード用のローカルモデルはずいぶん久しぶりに試したんです。そして、なんというか、実際に「使える」ところまで来ているなんて信じられません。もちろん Opus 4.7 のような一級品の体験とは同じではありませんが、それでも確実に近づいてきています。 かなり難しいタスクを試しました。いわゆる雑なCRUD作業ではなく、「それがある程度筋の通った計画を立てようとすることすらできるのか」を見たかったんですが、初回からかなり上手くやってくれました。 もちろんこれは一般的な最初の印象に過ぎず、実際の日々の開発で本格的に使い込んだわけではありません。でも少なくとも見た感じは気に入っていますし、他のモデルでのこれまでの体験よりもずっと有望に見えます。あれはところどころで完全に無茶苦茶を始めてしまうことがありました。 [リンク] [コメント] |
Qwen3.6-27B-UD-Q6_K_XL.ggufをCloudeCodeで試したら、使えるじゃないかと驚いた
Reddit r/LocalLLaMA / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- ユーザーは、RTX 5090でllama.cppを使い、GGUF形式のQwen3.6-27B-UD-Q6_K_XLを200Kコンテキストで動かしたところ、約50トークン/秒の速度が出たと報告しています。
- 「ローカルでのコーディングが実際に使える」段階に来ていることに驚いており、最高品質の商用体験(Opus 4.7)ほどではないものの、着実に近づいていると述べています。
- CRUDのような単純な作業ではなく、難しめの計画立て(タスク準備)を初回から試したところ、かなり筋の通ったプランを作れたとしています。
- これはあくまで最初の印象で、日常的なコーディングでの本格評価ではないものの、以前の他モデルでの経験よりも明るい見通しだと述べています。
