こちらでQwen3-Coder-NextのTQ3量子化版を見つけました:
https://huggingface.co/edwardyoon79/Qwen3-Coder-Next-TQ3_0
ページの記載によると、このモデルにはTurboQuantに対応した互換のある推論エンジンが必要です。またコマンドも提示されていますが、どのバージョン、またはllama.cppのどのフォークを使うべきかが明確に指定されていません(あるいは、見落としているだけかもしれません)。llama-server
私はTQ3に対応すると主張する以下のllama.cppフォークをいくつか試しましたが、どれもうまくいきませんでした:
- https://github.com/TheTom/llama-cpp-turboquant
- https://github.com/turbo-tan/llama.cpp-tq3
- https://github.com/drdotdot/llama.cpp-turbo3-tq3
もし誰かがこのモデルを正常に実行できたのであれば、どのように行ったか共有していただけるととてもありがたいです。
[リンク] [コメント]



