AscendOptimizer:Ascend NPUオペレータ最適化のためのエピソード型エージェント

arXiv cs.LG / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 全体として、本手法は、ハードウェアのフィードバックから不足している最適化の専門知識を直接ブートストラップし、反復サイクルを通じて実現可能性を着実に改善し、レイテンシを低減することを目指します。

Abstract

Huawei Ascend のニューラル処理ユニット(NPU)上での AscendC(Ascend C)オペレータ最適化は、二重の知識ボトルネックに直面しています。CUDA エコシステムとは異なり、学習のための公開された参照実装がほとんどないことに加えて、性能は結合された二つの成果物に左右されます。すなわち、データ移動を統括するホスト側のティリングプログラムと、命令をスケジューリングしパイプライン化するカーネルプログラムです。私たちは、この不足している専門性を実行を経験へと変えることでブートストラップするエピソード型エージェント AscendOptimizer を提案します。ホスト側では、AscendOptimizer はループ内プロファイリングに基づく進化的探索を実行し、ハードウェアのフィードバックから直接、妥当かつ高性能なティリングおよびデータ移動の構成を発見します。カーネル側では、最適化済みカーネルを巻き戻すことで、転用可能な最適化のモチーフを掘り起こします。つまり、体系的に非最適化して、示唆的な「悪から良へ」の軌跡を合成し、それらのモチーフを取得可能な経験バンクへ蒸留して、ガイド付きの書き換えに利用します。ホスト側の調整とカーネルの書き換えをクローズドループで交互に行うことで、AscendOptimizer は着実に実行可能性を拡大し、レイテンシを押し下げます。127 個の実在する AscendC オペレータからなるベンチマークにおいて、AscendOptimizer はオープンソースのベースラインに対して幾何平均で 1.19x の速度向上を達成し、参照に対して上回ったオペレータは 49.61% でした。さらに、強力なエージェント型および探索ベースラインを上回りました。