AscendOptimizer：Ascend NPUオペレータ最適化のためのエピソード型エージェント

arXiv cs.LG / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

全体として、本手法は、ハードウェアのフィードバックから不足している最適化の専門知識を直接ブートストラップし、反復サイクルを通じて実現可能性を着実に改善し、レイテンシを低減することを目指します。

Abstract

Huawei Ascend のニューラル処理ユニット（NPU）上での AscendC（Ascend C）オペレータ最適化は、二重の知識ボトルネックに直面しています。CUDA エコシステムとは異なり、学習のための公開された参照実装がほとんどないことに加えて、性能は結合された二つの成果物に左右されます。すなわち、データ移動を統括するホスト側のティリングプログラムと、命令をスケジューリングしパイプライン化するカーネルプログラムです。私たちは、この不足している専門性を実行を経験へと変えることでブートストラップするエピソード型エージェント AscendOptimizer を提案します。ホスト側では、AscendOptimizer はループ内プロファイリングに基づく進化的探索を実行し、ハードウェアのフィードバックから直接、妥当かつ高性能なティリングおよびデータ移動の構成を発見します。カーネル側では、最適化済みカーネルを巻き戻すことで、転用可能な最適化のモチーフを掘り起こします。つまり、体系的に非最適化して、示唆的な「悪から良へ」の軌跡を合成し、それらのモチーフを取得可能な経験バンクへ蒸留して、ガイド付きの書き換えに利用します。ホスト側の調整とカーネルの書き換えをクローズドループで交互に行うことで、AscendOptimizer は着実に実行可能性を拡大し、レイテンシを押し下げます。127 個の実在する AscendC オペレータからなるベンチマークにおいて、AscendOptimizer はオープンソースのベースラインに対して幾何平均で 1.19x の速度向上を達成し、参照に対して上回ったオペレータは 49.61% でした。さらに、強力なエージェント型および探索ベースラインを上回りました。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

AscendOptimizer：Ascend NPUオペレータ最適化のためのエピソード型エージェント

要点

Abstract

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer