みんながクロードのコード系の話をしている(それはそれで正しい)けど、この論文が今日出てきて、主張がかなりすごい:
- 1.15GBのメモリに収まる1-bit 8Bパラムモデル…
- ベンチマークで、llama3 8Bや他のフル精度の8Bモデルと競り合う
- 4090で440 tok/s、M4 Proで136 tok/sで動作
- iPhoneで約40 tok/sで動かせた
- 4〜5倍エネルギー効率が高い
さらにHugging Faceにも上がっています!まだいじれてはいないけど、みんながこの件についてどう思っているのか気になります。著名な教授によるCaltechのスピンアウトで、かなり筋が通っていそうに見える一方で、ブランド名だけでインデックスしているのには懐疑的です。本当に役に立つなら最高です、ただの誇大宣伝やベンチマークの限界まで張りに行っているだけでないことを願います。自分のスマホにプライベートLLMがあれば最高です
[リンク] [コメント]




