Qwen3-Coder-Next TurboQuant(TQ3)モデルの実行方法

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ユーザーが、Qwen3-Coder-Nextモデル(TQ3)のTurboQuant量子化版をどのように実行するか質問しており、TurboQuantに対応した推論エンジンが必要だと述べている特定のHugging Faceのモデルカードを参照しています。
  • モデルカードには `llama-server` コマンドが記載されていますが、互換性のある llama.cpp のどのバージョン(またはどのフォーク)を使うべきかが明確に示されていません。
  • ユーザーはTurboQuant/TQ3対応をうたう複数の llama.cpp フォークを試しましたが、いずれも自分の環境では動作しませんでした。
  • そのモデルを実際に正常に実行できた人からの助言を求めており、設定のどこかが欠けている、ビルドが不適合である、またはエンジン要件が分かりにくい可能性が示唆されています。

こちらでQwen3-Coder-NextのTQ3量子化版を見つけました:
https://huggingface.co/edwardyoon79/Qwen3-Coder-Next-TQ3_0

ページの記載によると、このモデルにはTurboQuantに対応した互換のある推論エンジンが必要です。またコマンドも提示されていますが、どのバージョン、またはllama.cppのどのフォークを使うべきかが明確に指定されていません(あるいは、見落としているだけかもしれません)。llama-server

私はTQ3に対応すると主張する以下のllama.cppフォークをいくつか試しましたが、どれもうまくいきませんでした:

もし誰かがこのモデルを正常に実行できたのであれば、どのように行ったか共有していただけるととてもありがたいです。

投稿者 /u/UnluckyTeam3478
[リンク] [コメント]