AI Navigate

KernelSkill: GPUカーネル最適化のためのマルチエージェントフレームワーク

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • KernelSkillは、長期的に再利用可能な最適化スキルと短期メモリを搭載したエージェントを調整する二層メモリアーキテクチャを備えたマルチエージェントフレームワークを導入します。これにより、繰り返しのバックトラッキングを回避します。
  • LLMベースのカーネル最適化における暗黙のヒューリスティクスを、知識駆動型の専門スキルへ置き換え、解釈性と効率性を向上させます。
  • KernelBenchのレベル1〜3で、KernelSkillは100%の成功率を達成し、Torch Eagerに対してレベル1、2、3でそれぞれ平均5.44倍、2.82倍、1.92倍のスピードアップを実現し、従来のベースラインを上回ります。
  • 本研究は、GPUカーネル最適化にKernelSkillを適用できるようにするオープンソース実装(GitHub)を提供しています。
要旨:GPUカーネルの効率を向上させることは、AIシステムを前進させるうえで重要です。最近の研究では、GPUカーネルの生成と最適化のために大規模言語モデル(LLMs)を活用することが探究されています。しかし、既存のLLMベースのカーネル最適化パイプラインは、通常、最適化戦略を決定するためにLLMs内部にある不透明で暗黙に学習されたヒューリスティクスに依存します。これにより、非効率な試行錯誤と解釈性の低い最適化が生じます。我々の核心的な洞察は、暗黙のヒューリスティクスを、知識駆動型でタスクの軌跡を意識した専門の最適化スキルへ置き換えることです。具体的には、二層メモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを提示します。KernelSkillは、再利用可能な専門スキルの長期記憶と、反復的なバックトラッキングを防ぐための短期記憶を持つエージェントを調整することによって動作します。KernelBenchのレベル1〜3では、KernelSkillはTorch Eagerに対して100%の成功率と、レベル1、2、3でそれぞれ5.44倍、2.82倍、1.92倍の平均スピードアップを達成し、従来のベースラインを上回ります。コードはhttps://github.com/0satan0/KernelMem/で入手可能です。