CuTeGen：CuTeを用いた高性能GPUカーネルの生成と最適化のためのLLMベースのエージェント型フレームワーク

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

CuTeGenは、実行ベースの検証によって正しさを維持しながら、高性能GPUカーネルの生成および改善のためのgenerate–test–refine（生成–テスト–洗練）サイクルを自動化するエージェント型LLMベースのフレームワークである。
1回限りのカーネル生成や総当たり探索の代わりに、CuTeの抽象化に導かれた構造化されたデバッグと段階的な最適化を用い、単一の「進化する」カーネルを段階的に洗練していく。
CuTeGenは、CuTe抽象化レイヤ上でカーネルを生成し、ティリングやデータ移動といった主要な性能構造を、反復的な修正に対してより安定した表現として露出させる。
フレームワークは、プロファイリングのフィードバックを遅延させて段階的に適用し、ワークロードを考慮した最適化プロンプトによって改善を競争力のある性能へと導く。
行列乗算および活性化（activation）のワークロードに関する実験により、CuTeGenが機能的に正しいカーネルを生成でき、最適化済みライブラリのベースラインと競争力のある性能に到達できることが示される。

Abstract

高性能GPUカーネルは現代の機械学習システムにとって重要ですが、効率的な実装の開発は、アルゴリズム構造、メモリ階層の利用、そしてハードウェア固有の最適化が密接に結び付いているため、依然として困難で専門家主導のプロセスです。近年、大規模言語モデル（LLM）を用いてGPUカーネルを自動生成する試みが行われていますが、生成された実装は、反復的な改良の過程において正しさを維持し、競争力のある性能を達成することが難しいことが多いです。本稿では、カーネル開発を構造化された「生成--テスト--改良（generate--test--refine）」のワークフローとして扱う、自動生成と最適化のためのエージェント型フレームワークであるCuTeGenを提案します。ワンショット生成や、大規模な探索によって候補実装から最適なものを選ぶアプローチとは異なり、CuTeGenは、実行に基づく検証、構造化されたデバッグ、および段階的な最適化を通じて、単一の生成途中のカーネルを段階的に改良することに焦点を当てています。重要な設計上の選択として、CuTeGenはCuTe抽象化レイヤーを用いてカーネルを生成します。これにより、タイル分割やデータ移動のような性能にクリティカルな構造を公開しつつ、反復的な修正のためのより安定した表現を提供します。性能向上を導くために、CuTeGenには、ワークロードを意識した最適化プロンプトと、プロファイリングに基づくフィードバックの遅延統合が組み込まれています。行列乗算および活性化（activation）ワークロードに関する実験結果は、このフレームワークが機能的に正しいカーネルを生成し、最適化されたライブラリ実装に対して競争力のある性能を達成することを示しています。