AI Navigate

インサイト最新記事一覧 AI大全

広告

[P] AMD & NVIDIA向け：0.03%のエスケープ率と、1つの整数ADDデコードで動くGPUフレンドリーな可逆12-bit BF16形式

Reddit r/MachineLearning / 2026/4/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本投稿では、GPUフレンドリーで可逆なBF16ウェイト圧縮プロトタイプを紹介する。各値を、8-bit指数部を4-bitのグループコードに置き換えることで12ビットで格納する。
ごく低い「エスケープ率」（多くのウェイトで約0.03%）を実現し、ビット単位で完全に復元できると主張している。具体的には、約99.97%の値は単一の整数ADD操作でデコードできるという。
この形式はバイト境界に合わせて設計され、エントロピー符号化やビットストリームのパースを回避する。これにより、「フューズドデコード + 行列乗算（matmul）」のアプローチで推論時に直接利用できる。
NVIDIA（例：RTX 5070 Ti）での結果では、複数のモデルにおいてvLLMより推論スループットが向上したと報告されており、この形式はAMDとNVIDIAの両方で動作するとされている。
初期実験では、エスケープ率は多様なモデルタイプ（Llama、Mixtral、SDXL、CogVideoXなど）にわたって低く、比較的安定していることが示唆されている。

[P] GPUにやさしいロスレス 12-bit BF16 形式。エスケープ率0.03%で、整数ADD 1回のデコードがAMD & NVIDIAで動作

こんにちは、オーストラリアから来ました : ) 新しい研究プロトタイプを公開しました

ロスレスBF16圧縮形式で、8-bit指数部を4-bitグループコードに置き換えることで、重みを12ビットで保存します。
99.97%の重みについては、デコードは整数ADD 1回だけです。

バイト境界に揃えた分割ストレージ：重みあたり12ビットで、16ビットのパディングによる無駄はなく、HBM読み出しの増幅もゼロです。

はい、12ビットです（11ビットではありません）！！主な狙いは「より多く圧縮する」だけではなく、形式を推論中にそのまま使えるほどGPUフレンドリーにすることでした：

符号 + 仮数：要素あたりちょうど1バイト
グループ：2つのニブルをちょうど1バイトに詰め込む

https://preview.redd.it/qbx94xeeo2tg1.png?width=1536&format=png&auto=webp&s=831da49f6b1729bd0a0e2d1f075786274e5a7398

BF16より1.33倍小さい
重みあたり12ビットの固定レートで、エントロピー符号化なし
精度ロスゼロのビット完全な再構成
デコード + 行列積（matmul）を融合するので、実質的に別の解凍ステージはないに等しい
バイトアラインのストレージで、LUTなし、ビットストリームのパースなし
NVIDIAとAMDの両方で動作

これまでのいくつかの結果：

単一ユーザー（B=1）、RTX 5070 Ti

Llama 2 7B：64.7 tok/s（vLLM比 1.47x）
Mistral 7B：60.0 tok/s（vLLM比 1.10x）
Llama 3.1 8B：57.0 tok/s（16GBでvLLMがOOM）

マルチユーザー（B=256）、合計tok/s

Llama 2 7B：2931 vs 1086（vLLM）（2.70x）
Mistral 7B：2554 vs 872（vLLM）（2.93x）

また、モデル種別をまたいでも意外なほど安定しているように見えます：

Llama 3.1 405B：0.034% エスケープ率
Mixtral 8x7B：0.050%
SDXL UNet：0.233%
CogVideoX 2B：0.128%

現時点ではBF16 safetensorsのみでテストしています。

Repo： https://github.com/cenconq25/Turbo-Lossless

補足として注目すべき点：V3の融合デコード+GEMMカーネルは、ZipServ / ZipGEMM（Fan et al., ASPLOS 2026）に着想を得たテンソルコアのパターンを使っています。

このアイデアへの批判、想定外ケース、スケールしない理由など、ぜひ聞かせてください。

お時間ありがとうございます : )

submitted by /u/Embarrassed_Will_120
[リンク] [コメント]

関連記事

Black Hat Asia

Black Hat Asia

AI Business

AIコンダクター

AIコンダクター

note

【4月30日まで無料公開】🔴誰にも言えない悩み…AIで整理する

【4月30日まで無料公開】🔴誰にも言えない悩み…AIで整理する

note

40代フリーランス必見！読者を迷わせない。AIに「クリックしたくなるマイクロコピー」を提案させるプロンプト【コピペOK】

40代フリーランス必見！読者を迷わせない。AIに「クリックしたくなるマイクロコピー」を提案させるプロンプト【コピペOK】

note

国内AIエージェント動向(2026/4/3号）

国内AIエージェント動向(2026/4/3号）

note

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告