PrismML、クラウドからAIを解放する狙いで、省エネ型の1-bit LLMを発表
Bonasi 8Bモデルは他の8Bモデルに匹敵する性能を持ちながら、14倍小さく、5倍省エネ
Caltech発のAIベンチャーであるPrismMLは、重い(重装)モデルを上回る1-bitの大規模言語モデルをリリースしました。このモデルが、ほかの用途を含め、AIの効率性とモバイル端末での実現可能性を高めることが期待されています。
このモデルは Bonsai 8B と名付けられており、小型かつ高速で、消費電力の要求も控えめです。そして、ベンチマークでの性能特性は、はるかに大きなモデルに匹敵するものだとしています。
「私たちの最初の実証ポイントは、1-bitのBonsai 8Bです。これは、1.15 GBのメモリに収まる1-bitモデルであり、フル精度の同等モデルに対して、10倍以上の“知能密度”を提供します」と同社はソーシャルメディアの 投稿 で述べています。「パラメータのクラスにおいて他のモデルと競争力を保ちつつ、エッジ用ハードウェア上では14倍小さく、8倍高速で、5倍省エネです。」
Transformerアーキテクチャに基づくAIモデルでは、ニューラルネットワークが、数百万あるいは数十億の 重み を持つことになります。これらの重みは、ニューロン間の結合の強さを制御し、モデルがタスクをどのように実行するかに影響します。重みは学習プロセスで設定され、表現に用いる精度に応じてメモリ領域を占有します。
GGUF FP16(16ビット)で量子化されたモデルは、GGUF Q8_0(8ビット)やGGUF Q4_0(4ビット)、GGUF Q2_K(2ビット)で量子化されたものよりも、はるかに多くの容量を消費します。これは、実際に必要となる保存容量を増やし得るメタデータやオーバーヘッドを除いた場合です。しかし、同じ基本的なアーキテクチャであるならば、16ビットのモデルは、より低いレベルで量子化されたモデルよりも一般に性能が優れています。
PrismMLのBonsaiモデルファミリーは、「各重みはその符号のみ({−1, +1})で表され、重みの各グループごとに共有スケール係数が保存される」という、同社のホワイトペーパー [PDF]で説明されているアーキテクチャに基づいています。これは、16ビットまたは32ビットの浮動小数点数の代わりに、ということです。研究者たちは長年にわたり、量子化を改善するためのアプローチに取り組んできました。例えば「BitNet: Bit-Regularized Deep Neural Networks」(2017年)や「The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits」(2024年)のような論文で述べられています。
PrismMLのアプローチは、カリフォルニア工科大学(Caltech)の電気工学教授ババク・ハサビ(Babak Hassibi)と共同研究者らによる研究に基づいています。同社は、自社の1ビット・アーキテクチャが、低ビット量子化に歴史的に付きまとってきたトレードオフ、すなわち具体的には「指示追従の不調」「誤った多段推論」「信頼性のないツール使用」を回避できると主張しています。
- Claude Codeのソース漏えいが、Anthropicがあなたやあなたのシステムについてどれだけ情報を吸い上げられるかを明らかにする
- Claude Codeは、あまりにも多くのコマンドを与えられると安全ルールを回避する
- Amazonのセキュリティ責任者:「AIによりペンテストは40%効率化」
- OpenAI、世界がそれらを吹き飛ばす中で「とにかく作る」ために122Bドルを獲得
「私たちは、推論能力を失うことなくニューラルネットワークを圧縮するために必要な数学的理論を開発するのに何年も費やしました」と、PrismMLのCEO兼創業者であるババク・ハサビは声明で述べました。「私たちは、1ビットを到達点ではなく出発点として捉えています。」
ハサビは、同社の1ビット・アーキテクチャが、計算とエネルギー1単位あたりの知能に焦点を当てた、新しいAIのパラダイムを確立していると主張しています。
こうした考え方を後押しするために――パフォーマンス/ワットという概念が話題になったのを覚えていますか?――PrismMLは「知能密度(intelligence density)」の測定を提案しています。これは、同社のモデルを好ましい形で示す指標です。
「私たちは、知能密度を、(同じベンチマーク群における)モデルの平均誤り率の対数の負(マイナス)を取り、それをモデルサイズで割ったものとして定義します」と、同社は説明しています。
知能密度で評価すると、Qwen3 8Bはさまざまなベンチマーク(MMLU Redux、MuSR、GSM8Kなど)でBonsai 8Bをわずかに上回るものの、知能密度は0.10/GBに過ぎず、知能密度1.06/GBのBonsai 8Bには大きく及びません。
指標はマーケティング上重要かもしれませんが、PrismMLのモデルにとってより意味のある尺度は、クラウドのデータセンターからAIを前進させられる可能性です。同社は、自社モデルがオンデバイスのエージェント、リアルタイムのロボティクス、安全なエンタープライズシステム、そしてメモリ帯域・電力・コンプライアンスの制約が導入の妨げになり得るその他のプロジェクトを支えると見込んでいます。
「1ビットBonsai 8Bは、MLX経由でAppleデバイス(Mac、iPhone、iPad)上でネイティブに動作し、Nvidia GPUではllama.cppのCUDA経由で動作します」と同社は述べています。「モデルの重みは、Apache 2.0ライセンスのもとで提供されています。また今日入手可能です。」
さらに2つの小型モデルも用意されています。1ビットBonsai 4Bと1ビットBonsai 1.7B。®