コールドスタートのドラフト作成と継続的な洗練へ: 価値主導のメモリ手法とNPUカーネル合成への適用

arXiv cs.LG / 2026/3/12

📰 ニュースModels & Research

要点

  • EvoKernel は、データ不足の NPU プログラミング環境における初期ドラフト作成から継続的な洗練まで、カーネル合成のライフサイクルを自動化する自己進化型エージェント系フレームワークとして紹介される。
  • カーネル合成を、現在の目的への貢献度に基づく経験を優先付けする新規の価値主導型取得機構を備えたメモリベースの強化学習タスクとして定式化します。実行可能なドラフトをブートストラップする場合や、レイテンシを洗練する場合などを含みます。
  • このアプローチは、タスク間のメモリ共有を可能にし、単純な演算子から複雑な演算子へ洞察を移転させることを可能にします。さらに、KernelBench の NPU 専用版を評価の対象として含みます。
  • 結果として、フロンティアモデルの正確性が 11.0% から 83.0% へ改善し、初期ドラフトに対して中央値で 3.60x のスピードアップを達成しました。これにより、ニッチなハードウェアエコシステム上でのカーネル合成の学習が効果的であることを示しています。
要旨: 大規模言語モデルをデータ不足のプログラミング領域にデプロイすることは、特に新興のドメイン特化型アーキテクチャにおけるカーネル合成で重大な課題を伴います。ここでは、データが制限された「データの壁」が訓練データの利用を制限します。CUDA のようなデータ豊富なプラットフォームではモデルは優れている一方で、NPU プログラミングのようなデータ不足のエコシステムでは壊滅的なパフォーマンス低下を被ります。高価なファインチューニングを避けつつこのコールドスタート障壁を克服するために、初期ドラフトの作成から継続的な洗練までのカーネル合成のライフサイクルを自動化する自己進化型エージェント系フレームワークである EvoKernel を導入します。EvoKernel は、合成プロセスをメモリベースの強化学習タスクとして定式化することでこれに対処します。新しい価値主導の取得機構を通じて、現在の目的に対する貢献度に基づく段階別の Q 値を学習し、実行可能なドラフトをブートストラップする場合でも、レイテンシを反復的に洗練する場合でも、それぞれの段階で経験を優先します。さらに、タスク間のメモリ共有を可能にすることで、エージェントは単純な演算子から複雑な演算子へと洞察を一般化します。KernelBench の NPU 特化版を構築して評価することで、EvoKernel はフロンティアモデルの正確性を 11.0% から 83.0% へと改善し、初期ドラフトに対して中央値で 3.60x のスピードアップを達成します。これにより、価値主導の経験蓄積により、汎用モデルがニッチなハードウェアエコシステム上でカーネル合成タスクを習得できることを示します。我々の公式ページは https://evokernel.zhuo.li で公開されています。