Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs
arXiv cs.LG / 4/28/2026
📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
Key Points
- NVIDIAのCUDA Tile(CuTile)は、GPUカーネル開発をタイル中心のPython抽象化で簡素化しつつ、Tensor CoreやTMA効率を維持することを目指す新しい手法だと説明されています。
- CuTileをHopper/Blackwell世代(H100 NVL、B200、RTX PRO 6000 Blackwell Server Edition)で、cuBLAS、Triton、WMMA、raw SIMTと比較する独立評価を行い、GEMM・融合型マルチヘッド注意・BF16/FP16のエンドツーエンドLLM推論をベンチマークしています。
- BlackwellのデータセンターGPU(B200)では、融合型注意で最大1007 TFLOP/sを達成しFlashAttention-2を2.5倍上回る一方、GEMMではcuBLASの52〜79%に留まり、実装行数面では有用ですがベンダ最適ライブラリの代替にはまだ距離があります。
- 一方で同じ注意カーネルはRTX PRO 6000(sm_120)ではFlashAttention-2のスループットの53%しか出ず、アーキテクチャ間の最適化ギャップが大きいことが示唆されています。
- Tritonは追加のアーキテクチャ別チューニングなしでcuBLASの62〜101%を維持し、CuTileよりも高い移植性(ポータビリティ)を示したと結論づけています。
Related Articles

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
How I Automate My Dev Workflow with Claude Code Hooks
Dev.to

Same Agent, Different Risk | How Microsoft 365 Copilot Grounding Changes the Security Model | Rahsi Framework™
Dev.to

Claude Haiku for Low-Cost AI Inference: Patterns from a Horse Racing Prediction System
Dev.to

How We Built an Ambient AI Clinical Documentation Pipeline (and Saved Doctors 8+ Hours a Week)
Dev.to