効率的な低ビットMXFP推論のための対角タイル型ミックス精度注意

arXiv cs.LG / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、注意機構の二次的な計算コストとメモリ帯域の制約に対処するために、MXFP（microscaling floating-point）形式を用いた、トランスフォーマー/LLM推論向けの新しい低ビット・ミックス精度注意カーネルを提案する。
「Diagonal-Tiled Mixed-Precision Attention（DMA）」を提案し、タイル単位で2つの低ビット計算モードを適用する。これを融合（fused）したTritonカーネルとして実装することで、ハードウェアの並列性とメモリ効率を高める。
NVIDIA B200 GPUでの実験では、テキスト生成において品質低下がほとんど見られない一方で、カーネル融合による顕著な速度向上が得られることを示している。
著者らはGitHubで公開コードを提供しており、実務者が自身の推論スタックで当該カーネルを導入しベンチマークできるようにしている。

Abstract

トランスフォーマーベースの大規模言語モデル（LLM）は、幅広い実世界のタスクにおいて目覚ましい性能を示してきましたが、注意機構の二次的な計算量と、高精度演算におけるメモリ帯域制限のために、推論コストはいまだに過度に高いままです。本研究では、次世代GPUアーキテクチャ上の計算能力を活用し、microscaling floating-point（MXFP）データ形式を用いた、低ビットの混合精度アテンションカーネルを提案します。Diagonal-Tiled Mixed-Precision Attention（DMA）は、タイル化レベルで2種類の低ビット計算を取り入れており、モデル性能を損なうことなく高速かつ効率的な推論を実現するために、Tritonを用いてハードウェアレベルの並列性とメモリ効率を活用した、きわめて綿密に融合（fused）されたカーネルです。NVIDIA B200 GPUでの広範な実験評価により、提案カーネルは生成品質をほとんど劣化させることなく維持しつつ、一方でカーネル融合によって大幅な速度向上を達成することが示されています。コードをhttps://github.com/yifu-ding/MP-Sparse-Attn で公開します。

Black Hat USA

AI Business

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

効率的な低ビットMXFP推論のための対角タイル型ミックス精度注意

要点

Abstract

関連記事

Black Hat USA

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat USA

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ