ubergarm/Kimi-K2.6-GGUF Q4_X が利用可能に

Reddit r/LocalLLaMA / 2026/4/21

📰 ニュースTools & Practical UsageModels & Research

要点

  • ubergarm/Kimi-K2.6 GGUF Q4_Xモデルが公開され、「フルサイズ」のKimi-K2.6 Q4_Xをパッチ/量子化するためのコミュニティの手順が共有された。
  • このQ4_Xは ik と mainline の両方の llama.cpp で動作するとされるが、必要なメモリ/VRAMは非常に大きく(およそ584GB以上)、大規模環境向けの内容になっている。
  • 著者は imatrix を用いたカスタム量子化の追加フォローや、ik_llama.cpp上で動かせるより小型の量子化版も予定している。
  • さらに AesSedai が mainline 向けの MoE 最適化レシピを近日中に提供する可能性があるとしており、GLM-5.1との比較にも関心が示されている。
ubergarm/Kimi-K2.6-GGUF Q4_X now available

今日は jukofyork と AesSedai に感謝です。「フルサイズ」の Kimi-K2.6「Q4_X」をパッチして量子化するためのヒントをいくつかもらいました。ik と mainline llama.cpp の両方で動きます(必要なメモリが RAM+VRAM で約 ~584GB 以上ある場合...)

カスタムの量子化を作っている他の人のために、imatrix で続報します。さらに、ik_llama.cpp で動く小さめの量子化版も近々出します。AesSedai は mainline MoE 用の最適化レシピも近いうちに用意する可能性が高いです!

乾杯!そして、この大きい方が GLM-5.1 と比べてどうなるか気になります。

投稿者 /u/VoidAlchemy
[link] [comments]