要旨: LLMエージェントでGPUカーネルを最適化することは、大きな設計空間に対する反復的なプロセスである。すべての候補は生成され、コンパイルされ、検証され、プロファイルされなければならないため、試行回数を減らせば実行時間とコストの両方を節約できる。私たちは2つの重要な観察を行う。第一に、エージェントが動作する抽象化レベルが重要である。抽象化レベルが低すぎると、LLMは影響の小さい詳細に対して推論を浪費する。逆に高すぎると、重要な最適化の選択肢を見落とす可能性がある。第二に、エージェントは限界(収穫逓減)の点に到達したかどうかを容易に判断できず、探索を続けて資源を浪費してしまう。
これらの観察は、効率を高めるための2つの設計原則を導く。(1) 文脈内で学習でき、重要な最適化レバーを保持しながらより高いレベルでモデルが推論できる、コンパクトなドメイン特化言語(DSL)、および(2) 第一原理に基づく性能上限を用いて探索を誘導し、探索予算を管理するSpeed-of-Light(SOL)ガイダンスである。私たちは、CUTLASSベースのGPUカーネル向けのコンパイラを備えたDSLである
CUTLASSにおいて、これらの原則を実装する。このDSLは、カーネル構成、エピローグ融合、多段パイプラインをカバーする。SOLガイダンスを用いてヘッドルームを推定し、最適化試行を導き、SOLに近い問題を優先度を下げ、ベンチマークを“稼ぐ”カーネルをフラグ付けする。CUTLASS + SOLガイダンスは、より弱いモデルでも、トークンコストが低い状態で、より強いベースラインのエージェントを上回れることを可能にする。SOLに基づくバジェット管理は、少なくともgeomeanの速度向上を95%以上維持しつつ、トークンを19-43%節約する。最良の方針では、1.68xの効率改善に到達する。最後に、SOL分析は、意図された計算を行えないにもかかわらず速く見える、ベンチマークを“稼ぐ”ケースの検出にも役立つ。
同じ反復予算での59のKernelBench問題において、低レベルコードの生成から、GPT-5-miniを用いたDSLコードへの切り替えにより、0.40xのgeomean回帰がPyTorchに対する1.27xの速度向上に変わる。SOLに基づく誘導を追加すると、1.56xまで向上する。モデルの階層を通して、




