Kernel-Smith：進化的カーネル最適化のための統一レシピ

arXiv cs.CL / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

Kernel-Smithは、GPUカーネル/演算子を高性能に生成するためのフレームワークで、評価駆動の進化的エージェントと進化志向の後処理（post-trainingレシピ）を統合して探索の安定性と性能を高めることを狙っている。
エージェント側では、実行可能な候補の集団を維持し、上位かつ多様なプログラムのアーカイブと、コンパイル可否・正しさ・スピードアップに関する構造化フィードバックを用いて反復的に改善する。
信頼性のために、NVIDIA GPU向けTritonと、MetaX GPU向けMacaそれぞれに対するバックエンド別の評価サービスを構築している。
学習（後処理）では長期の進化軌跡を「ステップ中心」の教師信号と強化学習信号に変換し、進化ループ内で強力なローカル改善器として機能するよう最適化する方針を採る。
KernelBenchでのTritonバックエンドではKernel-Smith-235B-RLが平均スピードアップ比で最先端のプロプライエタリモデル（Gemini-3.0-pro、Claude-4.6-opus）を上回り、さらにMacaでもKernel-Smith-MACA-30Bが大規模先行モデル（DeepSeek-V3.2-think、Qwen3-235B-2507-think）より優位で、SGLangやLMDeployへのプロダクション向け貢献も報告している。

要旨: 本稿では、安定した評価駆動型の進化エージェントと、進化志向の事後学習レシピを組み合わせることで、高性能GPUカーネルおよびオペレータ生成を実現するためのフレームワークであるKernel-Smithを提示します。エージェント側では、Kernel-Smithは実行可能な候補の母集団を維持し、コンパイル、正しさ、ならびにスピードアップに関する構造化された実行フィードバックと、上位かつ多様なプログラムのアーカイブを併用して、反復的にそれらを改良します。この探索を信頼できるものにするために、NVIDIA GPU上のTriton向けおよびMetaX GPU上のMaca向けに、バックエンド固有の評価サービスを構築します。訓練側では、正しさを保ちながら高ゲインな改訂を保持することで、長期ホライズンの進化軌跡を、ステップ中心の教師信号および強化学習の信号へと変換します。これにより、モデルはワンショット生成器として最適化されるのではなく、進化ループ内部における強力な局所改良者として最適化されます。統一された進化プロトコルのもとで、Kernel-Smith-235B-RLは、Nvidia Tritonバックエンドを用いたKernelBenchにおいて、総合性能で最新の最先端を達成し、平均スピードアップ比が最良となり、Gemini-3.0-proやClaude-4.6-opusを含むフロンティアの専用（プロプライエタリ）モデルを上回ります。さらに、MetaXのMACAバックエンドでもフレームワークを検証し、Kernel-Smith-MACA-30BがDeepSeek-V3.2-thinkやQwen3-235B-2507-thinkのような大規模な対抗手法を上回ることを示し、不均一なプラットフォーム間でシームレスに適応できる可能性を強調します。ベンチマーク結果にとどまらず、同一のワークフローは、SGLangやLMDeployを含む本番システムへの上流側の貢献も生み出しており、LLM駆動のカーネル最適化が、制御された評価から実際のデプロイメントへと移転可能であることを示しています。