| こんにちは、オーストラリアから来ました : ) 新しい研究プロトタイプを公開しました ロスレスBF16圧縮形式で、8-bit指数部を4-bitグループコードに置き換えることで、重みを12ビットで保存します。 バイト境界に揃えた分割ストレージ:重みあたり12ビットで、16ビットのパディングによる無駄はなく、HBM読み出しの増幅もゼロです。 はい、12ビットです(11ビットではありません)!! 主な狙いは「より多く圧縮する」だけではなく、形式を推論中にそのまま使えるほどGPUフレンドリーにすることでした: 符号 + 仮数:要素あたりちょうど1バイト
これまでのいくつかの結果: 単一ユーザー(B=1)、RTX 5070 Ti
マルチユーザー(B=256)、合計tok/s
また、モデル種別をまたいでも意外なほど安定しているように見えます:
現時点ではBF16 safetensorsのみでテストしています。 Repo: https://github.com/cenconq25/Turbo-Lossless 補足として注目すべき点:V3の融合デコード+GEMMカーネルは、ZipServ / ZipGEMM(Fan et al., ASPLOS 2026)に着想を得たテンソルコアのパターンを使っています。 このアイデアへの批判、想定外ケース、スケールしない理由など、ぜひ聞かせてください。 お時間ありがとうございます : ) [リンク] [コメント] |
[P] AMD & NVIDIA向け:0.03%のエスケープ率と、1つの整数ADDデコードで動くGPUフレンドリーな可逆12-bit BF16形式
Reddit r/MachineLearning / 2026/4/4
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本投稿では、GPUフレンドリーで可逆なBF16ウェイト圧縮プロトタイプを紹介する。各値を、8-bit指数部を4-bitのグループコードに置き換えることで12ビットで格納する。
- ごく低い「エスケープ率」(多くのウェイトで約0.03%)を実現し、ビット単位で完全に復元できると主張している。具体的には、約99.97%の値は単一の整数ADD操作でデコードできるという。
- この形式はバイト境界に合わせて設計され、エントロピー符号化やビットストリームのパースを回避する。これにより、「フューズドデコード + 行列乗算(matmul)」のアプローチで推論時に直接利用できる。
- NVIDIA(例:RTX 5070 Ti)での結果では、複数のモデルにおいてvLLMより推論スループットが向上したと報告されており、この形式はAMDとNVIDIAの両方で動作するとされている。
- 初期実験では、エスケープ率は多様なモデルタイプ(Llama、Mixtral、SDXL、CogVideoXなど)にわたって低く、比較的安定していることが示唆されている。




