KernelSkill: GPUカーネル最適化のためのマルチエージェントフレームワーク

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

KernelSkillは、長期的に再利用可能な最適化スキルと短期メモリを搭載したエージェントを調整する二層メモリアーキテクチャを備えたマルチエージェントフレームワークを導入します。これにより、繰り返しのバックトラッキングを回避します。
LLMベースのカーネル最適化における暗黙のヒューリスティクスを、知識駆動型の専門スキルへ置き換え、解釈性と効率性を向上させます。
KernelBenchのレベル1〜3で、KernelSkillは100%の成功率を達成し、Torch Eagerに対してレベル1、2、3でそれぞれ平均5.44倍、2.82倍、1.92倍のスピードアップを実現し、従来のベースラインを上回ります。
本研究は、GPUカーネル最適化にKernelSkillを適用できるようにするオープンソース実装（GitHub）を提供しています。

要旨：GPUカーネルの効率を向上させることは、AIシステムを前進させるうえで重要です。最近の研究では、GPUカーネルの生成と最適化のために大規模言語モデル（LLMs）を活用することが探究されています。しかし、既存のLLMベースのカーネル最適化パイプラインは、通常、最適化戦略を決定するためにLLMs内部にある不透明で暗黙に学習されたヒューリスティクスに依存します。これにより、非効率な試行錯誤と解釈性の低い最適化が生じます。我々の核心的な洞察は、暗黙のヒューリスティクスを、知識駆動型でタスクの軌跡を意識した専門の最適化スキルへ置き換えることです。具体的には、二層メモリアーキテクチャを備えたマルチエージェントフレームワークであるKernelSkillを提示します。KernelSkillは、再利用可能な専門スキルの長期記憶と、反復的なバックトラッキングを防ぐための短期記憶を持つエージェントを調整することによって動作します。KernelBenchのレベル1〜3では、KernelSkillはTorch Eagerに対して100%の成功率と、レベル1、2、3でそれぞれ5.44倍、2.82倍、1.92倍の平均スピードアップを達成し、従来のベースラインを上回ります。コードはhttps://github.com/0satan0/KernelMem/で入手可能です。

Visual Studio Code拡張機能

Azure OpenAI Service ドキュメント

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

AIを活用して1日で1か月分のコンテンツを作成する方法（ステップバイステップ・システム）

Dev.to

KernelSkill: GPUカーネル最適化のためのマルチエージェントフレームワーク

要点

関連記事

Visual Studio Code拡張機能

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

AIを活用して1日で1か月分のコンテンツを作成する方法（ステップバイステップ・システム）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer