広告

Turbo Quant on weight x2 speed

Reddit r/LocalLLaMA / 2026/4/2

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 「Turbo Quant」の一環として、新しい量子化モデルのバリアントTQ3_4Sが発表されました。同モデルは、TQ3_1Sと比べてモデルサイズを同じままにしつつ、推論速度を約2倍高速化できると主張しています。
  • 著者は、TQ3_4SがTQ3_1Sよりも品質が高いと報告しており、ローカルでのLLM量子化導入に対する改良として位置づけています。
  • この記事では、「Qwen3.5-27B-TQ3_4S」のHugging Faceモデルページへのリンクを掲載しており、アーティファクトをテスト用にすぐ利用できる状態になっています。
  • これらの改善がうたわれている一方で、著者は中央値PPLにおいては、参照モデルであるQ3_K_Sがわずかに優位であることに触れており、今後のリリースに向けてさらなるチューニングを計画しています。
Turbo Quant on weight x2 speed

https://preview.redd.it/hvkmfmp3mnsg1.png?width=1228&format=png&auto=webp&s=12e7bc31b08a734aec424b18ff17b4e517020ea6

TQ3_4S を発表できてうれしいです。
TQ3_1S より2倍速く、品質もより良く、サイズは同じです。

https://huggingface.co/YTan2000/Qwen3.5-27B-TQ3_4S

注:中央値のPPLでは、Q3_K_S がわずかに優れています。
次のモデルでは中央値で Q3_K_S を上回りましたが、まだ調整が必要です。

投稿者 /u/Imaginary-Anywhere23
[リンク] [コメント]

広告