ggml: Q1_0 1-bit量子化のサポート(CPU)を追加 - 1-bit Bonsaiモデル

Reddit r/LocalLLaMA / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • ggmlはCPUでQ1_0の1-bit量子化をサポートし、よりメモリ効率の高いモデル推論を可能にしました。
  • この変更は、GPUを必要とせずに非常に小さな「1-bit Bonsai」スタイルのモデルを効果的に動かすことを目的としています。
  • 投稿では、Bonsaiの8Bモデルは約1.15GBであることが示されており、新しい量子化によりCPUのみでの展開が現実的であるとしています。
  • llama.cpp/ggmlエコシステムにリンクされたプルリクエストが、実装の詳細を解説しています。
ggml: Q1_0 1-bit量子化サポートを追加(CPU) - 1-bit Bonsaiモデル

Bonsaiの8Bモデルはわずか1.15GBなので、CPUだけでも十分です。

https://huggingface.co/collections/prism-ml/bonsai

投稿者: /u/pmttyji
[リンク] [コメント]