1ビットとTurboQuantはOSSの未来か？Qwen3.5モデルのためのシミュレーション。

Reddit r/LocalLLaMA / 2026/4/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この投稿では、重みを1ビット形式で保存し、KVキャッシュメモリをTurboQuantで最適化した場合に、Qwen3.5モデルのバリアントがどのように見え得るかをシミュレートする。
現行のQ4_K_M重みと256KのKVキャッシュに比べて、仮定ベースで大幅なメモリ削減が見込まれることを報告しており、複数のモデル規模において総メモリ使用量が急激に減少する。
例として示される結果では、最大モデル（Qwen3.5-122B）が、合計約156GB（74.99GBの重み＋81.43GBのKVキャッシュ）から、1ビット＋TurboQuantの組み合わせシナリオで約18.20GBにまで縮小し得るとされている。
小型のバリアント（例：4Bおよび2B）も、それぞれ約1.99GBおよび0.82GB程度まで低下すると予測されており、オープンソース環境での導入が実質的に容易になることを示唆している。
著者は、この概念を、より大きなモデルをはるかに厳しいハードウェア制約の中で可能にすることで、OSSに対する「革命」になり得るものとして位置づけている。ただし、ここで提示されているのは明示的に仮定のシミュレーションであり、実際のリリースが実証されているわけではない。

1ビット技術とTurboQuantを使って、Qwen3.5モデルファミリーがどのように見えるかをシミュレーションします。以下の表は結果を示しており、これは革命になるでしょう：

モデル	パラメータ	Q4_K_M ファイル（現在）	KVキャッシュ（256K）（現在）	仮想 1-bit 重み	TurboQuant付き KVキャッシュ 256K	仮想合計メモリ使用量
Qwen3.5-122B-A10B	総122B / アクティブ10B	74.99 GB	81.43 GB	17.13 GB	1.07 GB	18.20 GB
Qwen3.5-35B-A3B	総35B / アクティブ3B	21.40 GB	26.77 GB	4.91 GB	0.89 GB	5.81 GB
Qwen3.5-27B	27B	17.13 GB	34.31 GB	3.79 GB	2.86 GB	6.65 GB
Qwen3.5-9B	9B	5.89 GB	14.48 GB	1.26 GB	1.43 GB	2.69 GB
Qwen3.5-4B	4B	2.87 GB	11.46 GB	0.56 GB	1.43 GB	1.99 GB
Qwen3.5-2B	2B	1.33 GB	4.55 GB	0.28 GB	0.54 GB	0.82 GB