ボンサイのモデルはただの誇大宣伝：Bonsai-8BはGemma-4-E2Bよりもはるかに“賢くない”

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、llama.cppとPrismML-llama.cppフォークを用い、Bonsai-8BとGemma-4を量子化や埋め込み設定の違い込みで比較しています。
同等に近いメモリ使用量でもBonsai-8Bの性能はGemma-4より劣ると主張しており、パラメータ数が大きいのにサイズが思ったほど小さくない点を挙げています。
著者は、従来の「小型モデルを特定の量子化限界を超えて無理に押し上げない」という考え方が、Bonsai-8Bの品質が伸びない背景にあるかもしれないと述べています。
更新として、Bonsai-8Bのトリナリ版を試したところ、1ビット版よりもさらに答えが間違っていると報告し、かつGemmaよりもサイズが大きいとも言及しています。

Bonsaiモデルはただの誇大宣伝：Bonsai-8BはGemma-4-E2Bよりずっとバカ

私はBonsaiにはhttps://github.com/PrismML-Eng/llama.cppのフォークを使い、Gemmaには通常のllama.cppを使っています。

埋め込みパラメータなしで：
Gemma 4は4.8 bpwで2.3B（Q4_K_M）= 1104 MB
Bonsai-8Bは1.125 bpwで6.95B（Q1_0）= 782 MB（わずか29%小さいだけ）

Gemma 4でももっと小さい量子化にすればよかったかもしれません。小さなモデルをQ4_K_Mを超えて押し上げないのが一般的なセオリーです。

あとで彼らの三値（ternary）モデルも試してみるかもしれませんが、あまり期待はしていません…

[更新]

1.58ビット／三値モデル（https://huggingface.co/prism-ml/Ternary-Bonsai-8B-mlx-2bit）を試しましたが、なぜか1ビットのものよりもさらに間違った答えでした。2.125 bpwで6.95Bパラメータは1477 MBで、Gemmaより33%大きいです！

最新バージョンのoMLXでテスト：https://i.imgur.com/NsNNwzj.png

投稿者： /u/WeGoToMars7
[リンク] [コメント]

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

langchain-anthropic==1.4.1 の変更点

LangChain Releases

反重力とクラウドAIが出会う：手間のかからない開発の未来

Dev.to

DOMノイズでトークンを浪費しない：Playwright MCPのオプティマイザー層

Dev.to

ボンサイのモデルはただの誇大宣伝：Bonsai-8BはGemma-4-E2Bよりもはるかに“賢くない”

要点

[更新]

関連記事

Black Hat USA

ブラックハット・アジア

langchain-anthropic==1.4.1 の変更点

反重力とクラウドAIが出会う：手間のかからない開発の未来

DOMノイズでトークンを浪費しない：Playwright MCPのオプティマイザー層

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer