| 要約: NVIDIA H100のような最新のGPUでのLLM推論では、ボトルネックは計算速度ではなくメモリ帯域です。GPUの遅い主メモリ(HBM)から処理コアへモデルの重みを移動するのにかかる時間が、生成できるトークンの速さを制限します。 **解決策:Unweight** Cloudflareは、モデルの重みを15〜22%縮小するロスレス(損失なし)の圧縮システム「Unweight」を開発しました(8Bパラメータのモデルで約3 GBのVRAMを節約)。しかも、専用のハードウェアを必要とせず、ビット単位で完全に一致する出力を維持します。 **仕組み** * **指数の圧縮:** 通常のモデル重みは16ビットの「brain floats」(BF16)として保存されます。BF16は符号、仮数、指数で構成されています。符号と仮数は実質的にランダムですが、指数は非常に予測しやすいです。典型的な層において、99%以上の重みが、わずか16種類の指数値のいずれかを使っています。Unweightはこれらの重みの「指数バイト」だけをハフマン符号化で圧縮し、残りはそのままにします。 * **オンチップ復号:** 従来の復号は、再構成したデータを書き戻して遅い主メモリに置くため、帯域節約の効果を相殺してしまいます。Unweightは代わりに、重みをGPUの超高速な共有メモリ内で直接復号し、そのデータをテンソル処理コアへそのまま送り込みます。 * **動的実行:** 推論中の重みの復号方法として「最適」は1つではありません。ワークロードに応じて、Unweightのオートチューナは4つの異なる実行パイプラインの間で動的に選択します(完全復号から、圧縮されたインデックスの直接処理まで)。特定の行列形状やバッチサイズに最適化します。 最終的に、Unweightにより提供者は1つのGPUにより多くのモデルを載せられるようになり、推論コストを下げ、ネットワーク全体の効率を高められます。 それはローカルでもより良いことにつながるかもしれません? [リンク] [コメント] |
Unweight:品質を落とさずにLLMを22%圧縮する方法
Reddit r/LocalLLaMA / 2026/4/19
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- CloudflareのUnweightは、現代GPUでのLLM推論における主要なボトルネックである「HBMから演算コアへモデル重みを移す際のメモリ帯域制約」に取り組みます。
- Unweightは損失なし(lossless)の圧縮手法で、モデル重みのサイズを約15〜22%削減し(8Bモデルで約3GBのVRAM節約)、ビット単位で完全に同一の出力を維持します。
- BF16の「brain float」重みのうち、予測可能性が高い指数(exponent)部分だけをHuffman符号化で圧縮し、通常のレイヤーでは指数が少数の値に偏る性質を利用します。
- 帯域削減の効果を相殺しないために、UnweightはGPUの高速な共有メモリ内でオンチップ解凍を行い、ワークロードの形状やバッチサイズに応じて複数の実行パイプラインを自動チューニングで選択します。
- 1台のGPUにより多くのモデルを載せられるため、推論コストの低減やネットワーク全体の効率改善につながり、ローカル利用にも波及する可能性があります。
関連記事

Black Hat USA
AI Business

ブラックハット・アジア
AI Business

Cloudflare、AIエージェント用のファイルシステム「Cloudflare Artifacts」発表。Git対応バージョン管理とRESTful API対応のファイルシステム
Publickey

Cloudflare、AIエージェントがメールの送受信を行える「Cloudflare Email Service」パブリックベータで公開
Publickey

ヘッドレスなSalesforce登場、あらゆる機能がAPI/CLI/MCPでアクセスできる「Salesforce Headless 360」発表
Publickey