HopperおよびBlackwell GPUにおけるAIワークロード向けCUDA Tileの評価

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • NVIDIAのCUDA Tile(CuTile)は、GPUカーネル開発をタイル中心のPython抽象化で簡素化しつつ、Tensor CoreやTMA効率を維持することを目指す新しい手法だと説明されています。
  • CuTileをHopper/Blackwell世代(H100 NVL、B200、RTX PRO 6000 Blackwell Server Edition)で、cuBLAS、Triton、WMMA、raw SIMTと比較する独立評価を行い、GEMM・融合型マルチヘッド注意・BF16/FP16のエンドツーエンドLLM推論をベンチマークしています。
  • BlackwellのデータセンターGPU(B200)では、融合型注意で最大1007 TFLOP/sを達成しFlashAttention-2を2.5倍上回る一方、GEMMではcuBLASの52〜79%に留まり、実装行数面では有用ですがベンダ最適ライブラリの代替にはまだ距離があります。
  • 一方で同じ注意カーネルはRTX PRO 6000(sm_120)ではFlashAttention-2のスループットの53%しか出ず、アーキテクチャ間の最適化ギャップが大きいことが示唆されています。
  • Tritonは追加のアーキテクチャ別チューニングなしでcuBLASの62〜101%を維持し、CuTileよりも高い移植性(ポータビリティ)を示したと結論づけています。

要旨: NVIDIAのCUDA Tile(CuTile)は、GPUカーネル開発のための、Pythonベースのタイル中心(tile-centric)な抽象化を導入し、最新のGPUにおいてTensor CoreおよびTensor Memory Accelerator(TMA)の効率を維持しつつ、プログラミングを簡素化することを目指しています。本稿では、HopperおよびBlackwellにまたがる3つのNVIDIA GPU、すなわちH100 NVL、B200、RTX PRO 6000 Blackwell Server Editionにおいて、CuTileをcuBLAS、Triton、WMMA、ならびに生のSIMTといった確立された手法と比較した、初の独立したクロスアーキテクチャ評価を示します。GEMM、融合(fused)されたマルチヘッド注意、そしてBF16/FP16精度でのエンドツーエンドLLM推論を含む代表的なAIワークロードをベンチマークし、性能と移植性の両方を評価します。
その結果、CuTileの有効性はワークロードおよびアーキテクチャに強く依存することが分かりました。データセンタ向けクラスのBlackwell(B200)では、CuTileは融合注意に対して最大1007 TFLOP/sを達成し、FlashAttention-2を2.5倍上回る一方で、必要なPythonカーネルコードはわずか60行のみです。GEMMでは、CuTileは22行のコードでcuBLAS性能の52〜79%に到達します(WMMAは123行)。これにより、手書きのCUDAカーネルの実用的な置き換えとなりますが、ベンダ最適化ライブラリにはまだ及びません。とはいえ、同一のCuTile注意カーネルは、RTX PRO 6000(sm_120)ではFlashAttention-2のスループットのわずか53%にとどまり、大きなクロスアーキテクチャ最適化ギャップが露呈しています。対照的に、Tritonは、アーキテクチャ固有のチューニングなしで、テストしたすべてのプラットフォームにわたりcuBLAS性能の62〜101%を維持し、移植性が大幅に強いことを示しています。