Abstract
大規模言語モデル(LLM)は、単一GPUデバイスのメモリ容量を超えて成長しており、実運用のためには量子化技術が必要となっています。NF4(4-bit NormalFloat)量子化は4 imesのメモリ削減を可能にしますが、現在のNVIDIA GPU(例:Ampere A100)での推論では、FP16形式への高コストな逆量子化が必要となり、重大な性能ボトルネックになっています。本論文は、このギャップに対処する軽量な共有メモリ最適化を提示します。すなわち、体系的なメモリ階層の活用によってギャップを埋めつつ、完全なエコシステム互換性を維持します。我々は本手法をオープンソースのBitsAndBytes実装と比較し、3つのモデル(Gemma 27B、Qwen3 32B、Llama3.3 70B)において2.0--2.2 imesのカーネル速度向上を達成し、さらに共有メモリがグローバルメモリへのアクセスに対して持つ12--15 imesのレイテンシ優位を活用することで、エンドツーエンドで最大1.54 imesの改善を実現しました。本最適化は、単純化されたインデックス計算ロジックにより命令数を削減しつつ、スレッドブロックあたり共有メモリを64バイトのみ使用します。これにより、軽量な最適化でも、最小限のエンジニアリング努力で大きな性能向上をもたらせることを示しています。本研究は、既存のGPU基盤上で高度なモデルへのアクセスを民主化する、HuggingFaceエコシステム向けのプラグアンドプレイなソリューションを提供します。