ボンサイのモデルはただの誇大宣伝:Bonsai-8BはGemma-4-E2Bよりもはるかに“賢くない”

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、llama.cppとPrismML-llama.cppフォークを用い、Bonsai-8BとGemma-4を量子化や埋め込み設定の違い込みで比較しています。
  • 同等に近いメモリ使用量でもBonsai-8Bの性能はGemma-4より劣ると主張しており、パラメータ数が大きいのにサイズが思ったほど小さくない点を挙げています。
  • 著者は、従来の「小型モデルを特定の量子化限界を超えて無理に押し上げない」という考え方が、Bonsai-8Bの品質が伸びない背景にあるかもしれないと述べています。
  • 更新として、Bonsai-8Bのトリナリ版を試したところ、1ビット版よりもさらに答えが間違っていると報告し、かつGemmaよりもサイズが大きいとも言及しています。
Bonsaiモデルはただの誇大宣伝:Bonsai-8BはGemma-4-E2Bよりずっとバカ

私はBonsaiにはhttps://github.com/PrismML-Eng/llama.cppのフォークを使い、Gemmaには通常のllama.cppを使っています。

埋め込みパラメータなしで:
Gemma 4は4.8 bpwで2.3B(Q4_K_M)= 1104 MB
Bonsai-8Bは1.125 bpwで6.95B(Q1_0)= 782 MB(わずか29%小さいだけ)

Gemma 4でももっと小さい量子化にすればよかったかもしれません。小さなモデルをQ4_K_Mを超えて押し上げないのが一般的なセオリーです。

あとで彼らの三値(ternary)モデルも試してみるかもしれませんが、あまり期待はしていません…

[更新]

1.58ビット/三値モデル(https://huggingface.co/prism-ml/Ternary-Bonsai-8B-mlx-2bit)を試しましたが、なぜか1ビットのものよりもさらに間違った答えでした。2.125 bpwで6.95Bパラメータは1477 MBで、Gemmaより33%大きいです!

最新バージョンのoMLXでテスト:https://i.imgur.com/NsNNwzj.png

投稿者: /u/WeGoToMars7
[リンク] [コメント]