[P] AMD & NVIDIA向け:0.03%のエスケープ率と、1つの整数ADDデコードで動くGPUフレンドリーな可逆12-bit BF16形式

Reddit r/MachineLearning / 2026/4/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本投稿では、GPUフレンドリーで可逆なBF16ウェイト圧縮プロトタイプを紹介する。各値を、8-bit指数部を4-bitのグループコードに置き換えることで12ビットで格納する。
  • ごく低い「エスケープ率」(多くのウェイトで約0.03%)を実現し、ビット単位で完全に復元できると主張している。具体的には、約99.97%の値は単一の整数ADD操作でデコードできるという。
  • この形式はバイト境界に合わせて設計され、エントロピー符号化やビットストリームのパースを回避する。これにより、「フューズドデコード + 行列乗算(matmul)」のアプローチで推論時に直接利用できる。
  • NVIDIA(例:RTX 5070 Ti)での結果では、複数のモデルにおいてvLLMより推論スループットが向上したと報告されており、この形式はAMDとNVIDIAの両方で動作するとされている。
  • 初期実験では、エスケープ率は多様なモデルタイプ(Llama、Mixtral、SDXL、CogVideoXなど)にわたって低く、比較的安定していることが示唆されている。
[P] GPUにやさしいロスレス 12-bit BF16 形式。エスケープ率0.03%で、整数ADD 1回のデコードがAMD & NVIDIAで動作

こんにちは、オーストラリアから来ました : ) 新しい研究プロトタイプを公開しました

ロスレスBF16圧縮形式で、8-bit指数部を4-bitグループコードに置き換えることで、重みを12ビットで保存します。
99.97%の重みについては、デコードは整数ADD 1回だけです。

バイト境界に揃えた分割ストレージ:重みあたり12ビットで、16ビットのパディングによる無駄はなく、HBM読み出しの増幅もゼロです。

はい、12ビットです(11ビットではありません)!! 主な狙いは「より多く圧縮する」だけではなく、形式を推論中にそのまま使えるほどGPUフレンドリーにすることでした:

符号 + 仮数:要素あたりちょうど1バイト
グループ:2つのニブルをちょうど1バイトに詰め込む

https://preview.redd.it/qbx94xeeo2tg1.png?width=1536&format=png&auto=webp&s=831da49f6b1729bd0a0e2d1f075786274e5a7398

  • BF16より1.33倍小さい
  • 重みあたり12ビットの固定レートで、エントロピー符号化なし
  • 精度ロスゼロのビット完全な再構成
  • デコード + 行列積(matmul)を融合するので、実質的に別の解凍ステージはないに等しい
  • バイトアラインのストレージで、LUTなし、ビットストリームのパースなし
  • NVIDIAとAMDの両方で動作

これまでのいくつかの結果:

単一ユーザー(B=1)、RTX 5070 Ti

  • Llama 2 7B:64.7 tok/svLLM比 1.47x
  • Mistral 7B:60.0 tok/svLLM比 1.10x
  • Llama 3.1 8B:57.0 tok/s16GBでvLLMがOOM

マルチユーザー(B=256)、合計tok/s

  • Llama 2 7B:2931 vs 1086(vLLM)(2.70x)
  • Mistral 7B:2554 vs 872(vLLM)(2.93x)

また、モデル種別をまたいでも意外なほど安定しているように見えます:

  • Llama 3.1 405B:0.034% エスケープ率
  • Mixtral 8x7B:0.050%
  • SDXL UNet:0.233%
  • CogVideoX 2B:0.128%

現時点ではBF16 safetensorsのみでテストしています。

Repo: https://github.com/cenconq25/Turbo-Lossless

補足として注目すべき点:V3の融合デコード+GEMMカーネルは、ZipServ / ZipGEMM(Fan et al., ASPLOS 2026)に着想を得たテンソルコアのパターンを使っています。

このアイデアへの批判、想定外ケース、スケールしない理由など、ぜひ聞かせてください。

お時間ありがとうございます : )

submitted by /u/Embarrassed_Will_120
[リンク] [コメント]