CuTeGen:CuTeを用いた高性能GPUカーネルの生成と最適化のためのLLMベースのエージェント型フレームワーク
arXiv cs.LG / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CuTeGenは、実行ベースの検証によって正しさを維持しながら、高性能GPUカーネルの生成および改善のためのgenerate–test–refine(生成–テスト–洗練)サイクルを自動化するエージェント型LLMベースのフレームワークである。
- 1回限りのカーネル生成や総当たり探索の代わりに、CuTeの抽象化に導かれた構造化されたデバッグと段階的な最適化を用い、単一の「進化する」カーネルを段階的に洗練していく。
- CuTeGenは、CuTe抽象化レイヤ上でカーネルを生成し、ティリングやデータ移動といった主要な性能構造を、反復的な修正に対してより安定した表現として露出させる。
- フレームワークは、プロファイリングのフィードバックを遅延させて段階的に適用し、ワークロードを考慮した最適化プロンプトによって改善を競争力のある性能へと導く。
- 行列乗算および活性化(activation)のワークロードに関する実験により、CuTeGenが機能的に正しいカーネルを生成でき、最適化済みライブラリのベースラインと競争力のある性能に到達できることが示される。




