大規模言語モデル推論のための高速NF4逆量子化カーネル

arXiv cs.LG / 2026/4/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、LLM推論における重要なボトルネックを対象とする。NF4（4-bit NormalFloat）量子化によってメモリは節約できる一方で、NVIDIA GPUでは実行時にコストの高いFP16の逆量子化が必要となる。
既存のHuggingFaceエコシステムとの互換性を維持しつつ、共有メモリ階層の利用に基づく軽量なNVIDIAカーネル最適化を提案し、NF4逆量子化を高速化する。
実験では、Gemma 27B、Qwen3 32B、Llama3.3 70Bにおいて、BitsAndBytesに対してカーネル速度が2.0〜2.2×向上し、最大でエンドツーエンドの改善が1.54×に達することを示している。
従来より命令数を削減するために索引ロジックを簡素化し、スレッドブロックあたり共有メモリ使用量を64バイトに抑えることで、大きな効果を得ながら工数を最小限にすることを重視している。
著者らは、この手法を「プラグアンドプレイ」な選択肢として位置づけており、現在のシングルGPU環境でより大きなモデルをより効率的にデプロイできることを目的としている。

Abstract

大規模言語モデル（LLM）は、単一GPUデバイスのメモリ容量を超えて成長しており、実運用のためには量子化技術が必要となっています。NF4（4-bit NormalFloat）量子化は4

imes

のメモリ削減を可能にしますが、現在のNVIDIA GPU（例：Ampere A100）での推論では、FP16形式への高コストな逆量子化が必要となり、重大な性能ボトルネックになっています。本論文は、このギャップに対処する軽量な共有メモリ最適化を提示します。すなわち、体系的なメモリ階層の活用によってギャップを埋めつつ、完全なエコシステム互換性を維持します。我々は本手法をオープンソースのBitsAndBytes実装と比較し、3つのモデル（Gemma 27B、Qwen3 32B、Llama3.3 70B）において2.0--2.2

imes

のカーネル速度向上を達成し、さらに共有メモリがグローバルメモリへのアクセスに対して持つ12--15

imes

のレイテンシ優位を活用することで、エンドツーエンドで最大1.54

imes

の改善を実現しました。本最適化は、単純化されたインデックス計算ロジックにより命令数を削減しつつ、スレッドブロックあたり共有メモリを64バイトのみ使用します。これにより、軽量な最適化でも、最小限のエンジニアリング努力で大きな性能向上をもたらせることを示しています。本研究は、既存のGPU基盤上で高度なモデルへのアクセスを民主化する、HuggingFaceエコシステム向けのプラグアンドプレイなソリューションを提供します。

Black Hat Asia

AI Business

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

AIシステムにおけるBashコマンド安全性解析はどのように機能するか

Dev.to

大規模言語モデル推論のための高速NF4逆量子化カーネル

要点

Abstract

関連記事

Black Hat Asia

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

AIシステムにおけるBashコマンド安全性解析はどのように機能するか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

AIシステムにおけるBashコマンド安全性解析はどのように機能するか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに