| みなさん、こんにちは。 AnythingLLM の Tim です。昨日 PrismML Bonsai の投稿を見たので、これは本当に試してみるしかないと思いました。というのも、14倍も小さいモデル(サイズとメモリの両方で)なら、ローカルモデルにとっては本当に大きなゲームチェンジャーになるからです。正直、私がやっているのはほぼそればかりです。 私自身はテストでは個人的にBonsai 8B モデルだけを動かしました。内容もチャット、ドキュメント要約、ツール呼び出し、Web検索など、何よりも実用寄りなので、あなたの環境では結果が違うかもしれませんが、私は M4 Max 48GB の MacBook Pro 上でこれを動かしていて、そもそも MLX モデルは使っていませんでした。古い Android の S20 で 1.7B モデルなら動かせるか試してみたいとも思っています。 現時点での唯一の欠点は、これが GGUF 形式であっても、直接 llama.cpp に読み込めないことです。1-bit のための演算をサポートするには、こちらの llama.cpp のフォークを使う必要があります。 そのフォークは llama.cpp に比べてかなり遅れています。そして ggerganov が今日、KV rotation の PR をマージしたのですが、これは TurboQuant の単一の要素で、圧縮時の KV 精度の改善に役立つとされています。そこで、1-bit の変更を加えたアップストリームのフォークを作りました。(どこでも確実に動く保証はありませんが lol). このモデルが、以前に利用可能だった MSFT の BitNet モデルとは同じ惑星どころか次元が違う、と言えると思います。あれらは実質使い物にならず、純粋に研究用途だけのものでした。 CUDA で動かそうとは試していませんが、同程度のサイズのもの(Qwen3 VL 8B Instruct Q4_K_M)と比べて、実際に かなり メモリの負荷が低いことは確認できました。もちろんこれは完全に同じ条件ではありませんが、イメージを伝えるための参考として書いておきます。 4月1日のニュースとしては当然ながら理想的ではないですが、これは実際に冗談ではなく、ようやくまともな 1-bit のモデルシリーズが出てきました。おそらく簡単に学習できるものではないので、いずれ他の人も同様のことをやってくれるかもしれません。 正直、こういうニュースなら TurboQuant のときのようにメモリや GPU の銘柄が揺れてもおかしくないと思うのですが、それでもこうして、現実の本物のモデルが、より少ないリソースで驚くほど快適に動くのに、現場は シーーン(誰も騒がない)ですね。 とにかく、みなさんもう試しましたか?感想を教えてください。私は PrismML で働いているわけでもないし、そこに知り合いがいるわけでもありません。ただ、面白そうだったので。 [link] [comments] |
ボンサイの1ビットモデルは非常に優秀だ
Reddit r/LocalLLaMA / 2026/4/2
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者は、PrismMLのBonsai 8B 1ビットモデルをM4 Max搭載のMacBook Pro上でローカルにテストし、チャット、ドキュメント要約、ツール呼び出し、Web検索といった実用的なタスク全般で強いパフォーマンスを報告している。
- 重要な制約として、GGUFとして配布されているにもかかわらず、Bonsaiの1ビットモデルは標準のllama.cppに直接ロードできず、1ビット演算をサポートするPrismMLのフォークが必要だと述べている。
- 議論では、関連するllama.cppコードにおける進行中のインフラ整備(KV回転のアップストリーム取り込みを含む)や、著者自身が1ビットの変更を取り込むために作成したアップストリームフォークに触れている。
- 著者はBonsaiを、Microsoftの過去の「BitNet」1ビットモデルと対比し、当時のものはほとんど使い物にならなかったと主張する一方で、Bonsaiは「本当に動く」ものだと説明している。
- ローカル導入における主な利点は、同等の量子化モデルに比べてメモリ負荷が大幅に低い点であると強調し、学習コストが現実的になれば、今後さらに多くの1ビットモデル系列が続く可能性を示唆している。




