広告

Bonsai(PrismMLのQwen3 8B/4B/1.7Bの1ビット版)はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、PrismMLの「Bonsai」1ビット量子化Qwen3バリアントをテストした結果、それが実際のものであり、エイプリルフールの冗談ではないようだと結論づけた。
  • 単一のRTX 4060上でのベンチマークでは、高いスループット(生成あたり約107 t/s、プロンプト処理あたり1114 t/s超)が示され、以前のQwen 3.5 4B Q4結果と比べてRAM使用量も大幅に少ない。
  • モデルは要約に実用的で、「テキスト要約」ユースケースで“ゴールデン”を達成したと説明されているが、コーディングやツール利用については評価されていない。
  • 重要な制約として、提供されているllama.cppフォークがCPUのみのミニPCでハングまたは失敗するように見える点が挙げられており、効率的なCPU実装がないのではないか、または脱量子化/FP32推論を試みることになるのではないか、という疑いが述べられている。
  • 投稿では、1ビット表現はメモリ帯域と計算の両方を削減し得るため、エッジ/CPUでの推論が改善される可能性があり、特にVRAMに制約のあるユーザーに恩恵があると主張している。

昨日記事を読みました:

https://prismml.com/news/bonsai-8b

そして、これらの盆栽モデルについて出てきていた唯一の3本の動画を見ました。ちゃんとしてそうに見えましたが、それでもひょっとするとエイプリルフールのネタかもしれないと思いました。

そこで今日、思い立って試してみました。8Bモデル、llama.cppのフォーク版をダウンロードして動作を確認したところ、私の見た限り本物です:

私のつつましい4060では、107 t/sの生成と、>1114 t/sのプロンプト処理ができました。しかも、モデルはどう見てもかなり小さい。比較として、同じプロンプトでqwen 3.5 4B Q4を使ったときは56 t/sでした。

最も重要なのは、使用RAMがずっとずっと低いことです。なので、つつましい8GB VRAMでも8Bモデルを使えますし、さらに小さいモデルならコンテキストを長くできます。

品質:私はテキストの要約用途がありますが、最初に見た段階でうまく機能していました。コーディング用途やツール利用には試していませんが、要約に関してはまさに金の延べ棒です。

唯一良くない点は、CUDA搭載の私のWindows PCではうまく動いたのに、GPUなしのミニPC(性能の端っこでの可能性を見たくて)で試したところ、llama.cppのフォークはコンパイルできるものの、動きません。モデルは読み込むのですが、プロンプト処理を開始したように見えて、そこで止まってしまうようです。Claudeにコードを確認するよう頼んだところ、CPU実装がないとのことで、FP32への逆量子化を行って通常の推論を試みている(つまりCPUでは死ぬほど遅い)可能性がある、ということでした。

この1ビットモデルには、帯域やメモリ要件を減らすだけでなく、計算要件も削減できる可能性があると思います。1ビット行列では、行列乗算の部分は、FPなんとかよりもずっと速い、XORのような演算になるはずです。私の理解では、XORの後にFP16へのスケールが必要だとしても、圧倒的に大量の計算を節約できるはずで、それがCPUのみでの推論や、エッジ推論全般の助けになるはずです。

結局のところ、VRAM不足の私たちにも希望があるってことですね!!(そして、これがramageddonを少しでも膨らませずに済み、さらにAIデータセンターバブル全体にも一矢報いるかもしれません)

submitted by /u/TylerDurdenFan
[link] [comments]

広告