昨日記事を読みました:
https://prismml.com/news/bonsai-8b
そして、これらの盆栽モデルについて出てきていた唯一の3本の動画を見ました。ちゃんとしてそうに見えましたが、それでもひょっとするとエイプリルフールのネタかもしれないと思いました。
そこで今日、思い立って試してみました。8Bモデル、llama.cppのフォーク版をダウンロードして動作を確認したところ、私の見た限り本物です:
私のつつましい4060では、107 t/sの生成と、>1114 t/sのプロンプト処理ができました。しかも、モデルはどう見てもかなり小さい。比較として、同じプロンプトでqwen 3.5 4B Q4を使ったときは56 t/sでした。
最も重要なのは、使用RAMがずっとずっと低いことです。なので、つつましい8GB VRAMでも8Bモデルを使えますし、さらに小さいモデルならコンテキストを長くできます。
品質:私はテキストの要約用途がありますが、最初に見た段階でうまく機能していました。コーディング用途やツール利用には試していませんが、要約に関してはまさに金の延べ棒です。
唯一良くない点は、CUDA搭載の私のWindows PCではうまく動いたのに、GPUなしのミニPC(性能の端っこでの可能性を見たくて)で試したところ、llama.cppのフォークはコンパイルできるものの、動きません。モデルは読み込むのですが、プロンプト処理を開始したように見えて、そこで止まってしまうようです。Claudeにコードを確認するよう頼んだところ、CPU実装がないとのことで、FP32への逆量子化を行って通常の推論を試みている(つまりCPUでは死ぬほど遅い)可能性がある、ということでした。
この1ビットモデルには、帯域やメモリ要件を減らすだけでなく、計算要件も削減できる可能性があると思います。1ビット行列では、行列乗算の部分は、FPなんとかよりもずっと速い、XORのような演算になるはずです。私の理解では、XORの後にFP16へのスケールが必要だとしても、圧倒的に大量の計算を節約できるはずで、それがCPUのみでの推論や、エッジ推論全般の助けになるはずです。
結局のところ、VRAM不足の私たちにも希望があるってことですね!!(そして、これがramageddonを少しでも膨らませずに済み、さらにAIデータセンターバブル全体にも一矢報いるかもしれません)
[link] [comments]




