Cloudflare、損失なしLLM圧縮ツール「Unweight」をオープンソース化

Reddit r/LocalLLaMA / 2026/4/18

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Cloudflareは、出力精度を損なわずにLLMのサイズを15〜22%削減できる損失なし圧縮システム「Unweight」を公開しました。
  • MetaのLlama 3.1 8Bでの検証では、Nvidia H100 GPU上でMLP重みを圧縮することで約3GBのVRAMを節約できるなど、ハードウェア面での効果が示されています。
  • CloudflareはGPUカーネルをGitHubでオープンソース化し、手法を説明する技術論文も公開しました。
  • 同社は、圧縮対象をアテンション重みにも拡張して、LLMのメモリや計算コストをさらに削減する計画です。
  • Cloudflare は、出力精度を犠牲にせずに LLM のサイズを 15〜22% 削減する可逆圧縮システム「Unweight」を公開しました。

  • Meta の Llama-3.1-8B では、このツールが Nvidia H100 GPU 上で MLP の重みを圧縮することで、およそ 3 GB の VRAM を節約します。

  • Cloudflare は GitHub で GPU カーネルをオープンソース化し、技術論文を公開しました。圧縮を注意(attention)の重みにも拡張する計画があります。

/u/Otis43 によって投稿
[link] [comments]