広告

1ビットとTurboQuantはOSSの未来か?Qwen3.5モデルのためのシミュレーション。

Reddit r/LocalLLaMA / 2026/4/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この投稿では、重みを1ビット形式で保存し、KVキャッシュメモリをTurboQuantで最適化した場合に、Qwen3.5モデルのバリアントがどのように見え得るかをシミュレートする。
  • 現行のQ4_K_M重みと256KのKVキャッシュに比べて、仮定ベースで大幅なメモリ削減が見込まれることを報告しており、複数のモデル規模において総メモリ使用量が急激に減少する。
  • 例として示される結果では、最大モデル(Qwen3.5-122B)が、合計約156GB(74.99GBの重み+81.43GBのKVキャッシュ)から、1ビット+TurboQuantの組み合わせシナリオで約18.20GBにまで縮小し得るとされている。
  • 小型のバリアント(例:4Bおよび2B)も、それぞれ約1.99GBおよび0.82GB程度まで低下すると予測されており、オープンソース環境での導入が実質的に容易になることを示唆している。
  • 著者は、この概念を、より大きなモデルをはるかに厳しいハードウェア制約の中で可能にすることで、OSSに対する「革命」になり得るものとして位置づけている。ただし、ここで提示されているのは明示的に仮定のシミュレーションであり、実際のリリースが実証されているわけではない。

1ビット技術とTurboQuantを使って、Qwen3.5モデルファミリーがどのように見えるかをシミュレーションします。以下の表は結果を示しており、これは革命になるでしょう:

モデル パラメータ Q4_K_M ファイル(現在) KVキャッシュ(256K)(現在) 仮想 1-bit 重み TurboQuant付き KVキャッシュ 256K 仮想 合計メモリ使用量
Qwen3.5-122B-A10B 総122B / アクティブ10B 74.99 GB 81.43 GB 17.13 GB 1.07 GB 18.20 GB
Qwen3.5-35B-A3B 総35B / アクティブ3B 21.40 GB 26.77 GB 4.91 GB 0.89 GB 5.81 GB
Qwen3.5-27B 27B 17.13 GB 34.31 GB 3.79 GB 2.86 GB 6.65 GB
Qwen3.5-9B 9B 5.89 GB 14.48 GB 1.26 GB 1.43 GB 2.69 GB
Qwen3.5-4B 4B 2.87 GB 11.46 GB 0.56 GB 1.43 GB 1.99 GB
Qwen3.5-2B 2B 1.33 GB 4.55 GB 0.28 GB 0.54 GB 0.82 GB
提出者 /u/GizmoR13
[リンク] [コメント]

広告