効率的な低ビットMXFP推論のための対角タイル型ミックス精度注意
arXiv cs.LG / 2026/4/7
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、注意機構の二次的な計算コストとメモリ帯域の制約に対処するために、MXFP(microscaling floating-point)形式を用いた、トランスフォーマー/LLM推論向けの新しい低ビット・ミックス精度注意カーネルを提案する。
- 「Diagonal-Tiled Mixed-Precision Attention(DMA)」を提案し、タイル単位で2つの低ビット計算モードを適用する。これを融合(fused)したTritonカーネルとして実装することで、ハードウェアの並列性とメモリ効率を高める。
- NVIDIA B200 GPUでの実験では、テキスト生成において品質低下がほとんど見られない一方で、カーネル融合による顕著な速度向上が得られることを示している。
- 著者らはGitHubで公開コードを提供しており、実務者が自身の推論スタックで当該カーネルを導入しベンチマークできるようにしている。




