GPUカーネルエンジニアリングやLLM推論(FlashAttention / FlashInfer / SGLang / vLLMのような取り組み)を始めたばかりの人にとっては、ほとんどの求人で「C++17、CuTe、CUTLASS」がハード要件として挙げられています。
同時に、NVIDIAは2025年後半からCuTeDSL(CUTLASS 4.xにあるPython DSL)を、新しいカーネルの推奨ルートとして強く推進しています——同等の性能、テンプレートメタプログラミングなし、JITなし、より速い反復、そしてTorchInductorとの直接統合です。
この変化は、FlashAttention-4、FlashInfer、そしてSGLangのNVIDIAコラボのロードマップの中で、本当に起きていると感じます。
この分野ですでに働いている人への質問:
2026年にゼロから始める場合、レガシーなC++のCuTe/CUTLASSテンプレートを深く掘り下げる価値はまだあるのでしょうか?それとも、CuTeDSL → Triton → Mojo(そして古いコードを読むためのC++は軽めにする)を優先すべきですか?
「新しいスタック」(CuTeDSL + Triton + サービングのためのRust/Mojo)は、現時点で実運用に本当に耐えますか?それとも、求人情報が正しいように、採用されて実際のカーネルを出荷するには、依然として強いC++ CUTLASSスキルが必要なのでしょうか?
FlashInfer / SGLang / FlashAttentionに貢献したい、新人カーネルエンジニアのための、何か実体験の話や学習の順序に関する助言はありますか?
率直な見解が欲しいです—ありがとうございます!
[link] [comments]



