デバイス上で1-bit LLMは可能?!

要点

この投稿では、約1.15GBのメモリに収まる8B（80億）パラメータの「1-bit」言語モデルを主張する、発表されたばかりの研究論文が紹介されている。

みんながクロードのコード系の話をしている（それはそれで正しい）けど、この論文が今日出てきて、主張がかなりすごい：

1.15GBのメモリに収まる1-bit 8Bパラムモデル…
ベンチマークで、llama3 8Bや他のフル精度の8Bモデルと競り合う
4090で440 tok/s、M4 Proで136 tok/sで動作
iPhoneで約40 tok/sで動かせた
4〜5倍エネルギー効率が高い

さらにHugging Faceにも上がっています！まだいじれてはいないけど、みんながこの件についてどう思っているのか気になります。著名な教授によるCaltechのスピンアウトで、かなり筋が通っていそうに見える一方で、ブランド名だけでインデックスしているのには懐疑的です。本当に役に立つなら最高です、ただの誇大宣伝やベンチマークの限界まで張りに行っているだけでないことを願います。自分のスマホにプライベートLLMがあれば最高です

提出者 /u/hankybrd
[リンク] [コメント]