AI Navigate

Qwen3-Coder-Next と llama.cpp の騒動

Reddit r/LocalLLaMA / 2026/3/14

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 著者は Qwen3-Coder-Next が llama.cpp でパフォーマンスが低く、頻繁にループし、使用すべきツールを正しく呼び出せず、autoparser マージ後も同様だったと報告しています。
  • Claude code、Qwen code、OpenCode を試したものの、どれもモデルの性能が低いと判明しました。
  • 投稿には exact llama-server コマンドと量子化設定 (UD-Q8_K_XL) が含まれており、再度ダウンロード後に異なる量子化手法を試したと記載されています。
  • 編集では bartowski 量子化へ切り替えると問題が解決したと述べ、量子化手法が鍵となる要因だと示唆しています。
  • 著者はほかの人がどんな設定でうまく機能しているかを尋ね、モデルを安定して機能させる方法について議論を呼びかけています。

どうしても Q3CN が vibe コーディングにとって価値があるとは思えません。モデルの能力についての投稿を無数に見ますが、それらは私には同じ性能を得られず、非常に不可解に感じます。モデルはとんでもなくループし、ツールを正しく呼び出せず、使用すべきツールを回避するための荒唐無稽な回避策に走ります。私は llama.cpp を使用しており、autoparser マージの前後でこれが起きました。量子化は unsloth の UD-Q8_K_XL です。彼らが量子化手法をアップグレードした後に再ダウンロードしましたが、両方のモデルで同じ問題があります。

Claude Code、Qwen Code、OpenCode などを試しましたが、いずれもモデルは性能が低く、すべての選択肢で非パフォーマンスでした。

以下が私のコマンドです:

```bash

llama-server -m ~/.cache/hub/huggingface/hub/models--unsloth--Qwen3-Coder-Next-GGUF/snapshots/ce09c67b53bc8739eef83fe67b2f5d293c270632/UD-Q8_K_XL/Qwen3-Coder-Next-UD-Q8_K_XL-00001-of-00003.gguf --temp 0.8 --top-p 0.95 --min-p 0.01 --top-k 40 --batch-size 4096 --ubatch-size 1024 --dry-multiplier 0.5 --dry-allowed-length 5 --frequency_penalty 0.5 --presence-penalty 1.10

```

これは私の設定だけですか?皆さんはこのモデルを機能させるために何をしていますか?

編集: この コメント によれば bartowski量子化を使用すると問題なく動作します