HopperおよびBlackwell GPUにおけるAIワークロード向けCUDA Tileの評価

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

NVIDIAのCUDA Tile（CuTile）は、GPUカーネル開発をタイル中心のPython抽象化で簡素化しつつ、Tensor CoreやTMA効率を維持することを目指す新しい手法だと説明されています。
CuTileをHopper/Blackwell世代（H100 NVL、B200、RTX PRO 6000 Blackwell Server Edition）で、cuBLAS、Triton、WMMA、raw SIMTと比較する独立評価を行い、GEMM・融合型マルチヘッド注意・BF16/FP16のエンドツーエンドLLM推論をベンチマークしています。
BlackwellのデータセンターGPU（B200）では、融合型注意で最大1007 TFLOP/sを達成しFlashAttention-2を2.5倍上回る一方、GEMMではcuBLASの52〜79%に留まり、実装行数面では有用ですがベンダ最適ライブラリの代替にはまだ距離があります。
一方で同じ注意カーネルはRTX PRO 6000（sm_120）ではFlashAttention-2のスループットの53%しか出ず、アーキテクチャ間の最適化ギャップが大きいことが示唆されています。
Tritonは追加のアーキテクチャ別チューニングなしでcuBLASの62〜101%を維持し、CuTileよりも高い移植性（ポータビリティ）を示したと結論づけています。

要旨: NVIDIAのCUDA Tile（CuTile）は、GPUカーネル開発のための、Pythonベースのタイル中心（tile-centric）な抽象化を導入し、最新のGPUにおいてTensor CoreおよびTensor Memory Accelerator（TMA）の効率を維持しつつ、プログラミングを簡素化することを目指しています。本稿では、HopperおよびBlackwellにまたがる3つのNVIDIA GPU、すなわちH100 NVL、B200、RTX PRO 6000 Blackwell Server Editionにおいて、CuTileをcuBLAS、Triton、WMMA、ならびに生のSIMTといった確立された手法と比較した、初の独立したクロスアーキテクチャ評価を示します。GEMM、融合（fused）されたマルチヘッド注意、そしてBF16/FP16精度でのエンドツーエンドLLM推論を含む代表的なAIワークロードをベンチマークし、性能と移植性の両方を評価します。
その結果、CuTileの有効性はワークロードおよびアーキテクチャに強く依存することが分かりました。データセンタ向けクラスのBlackwell（B200）では、CuTileは融合注意に対して最大1007 TFLOP/sを達成し、FlashAttention-2を2.5倍上回る一方で、必要なPythonカーネルコードはわずか60行のみです。GEMMでは、CuTileは22行のコードでcuBLAS性能の52〜79%に到達します（WMMAは123行）。これにより、手書きのCUDAカーネルの実用的な置き換えとなりますが、ベンダ最適化ライブラリにはまだ及びません。とはいえ、同一のCuTile注意カーネルは、RTX PRO 6000（sm_120）ではFlashAttention-2のスループットのわずか53%にとどまり、大きなクロスアーキテクチャ最適化ギャップが露呈しています。対照的に、Tritonは、アーキテクチャ固有のチューニングなしで、テストしたすべてのプラットフォームにわたりcuBLAS性能の62〜101%を維持し、移植性が大幅に強いことを示しています。

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

HopperおよびBlackwell GPUにおけるAIワークロード向けCUDA Tileの評価

要点

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Claude Codeのフックで開発ワークフローを自動化する方法

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer