AppleシリコンNPUによる効率的なMixture-of-Experts（MoE）LLM推論

arXiv cs.LG / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、MoE LLM推論がApple SiliconのNPU上で難しい理由として、予測不能なエキスパートルーティング、NPUに不向きな不規則オペレータ、そして多数の小さなエキスパートカーネル起動に伴う高いオーバーヘッドを挙げています。
NPUMoEというランタイム推論エンジンを提案し、MoE推論のうち密で静的な部分をNPUへオフロードしつつ、動的な処理はCPU/GPUのフォールバックで維持します。
NPUMoEはオフラインのキャリブレーションでエキスパートの容量と人気度を見積もり、その結果として、動的なルーティングに対処する静的ティア、NPUの並列実行制限を踏まえたグループ化されたエキスパート実行、そしてCPU–NPU間の同期オーバーヘッドを減らすロード認識型の計算グラフ常駐を可能にします。
Apple Mシリーズ上で3種類のMoE LLMと4つのロングコンテキスト・ワークロードを用いた実験では、NPUオフロードの効果により一貫して改善が見られ、レイテンシが1.32x〜5.55x、エネルギー効率が1.81x〜7.37x、CPU使用サイクルが1.78x〜5.54x削減されました。

要旨: Apple Neural Engine (ANE) は、すべての Apple Silicon チップに搭載されている専用のニューラル処理ユニット（NPU）です。Mixture-of-Experts（MoE）LLM は疎な活性化によって推論効率を改善しますが、NPU には次の 3 つの点で難しさがあります。専門家のルーティングが予測不能であり、NPU の形状に依存した制約と衝突する動的なテンソル形状を導入すること、top-k や scatter/gather などのいくつかの不規則な演算子が NPU に適していないこと、そして多数の小さな専門家カーネルを起動すると、ディスパッチおよび同期のオーバーヘッドが大きくなることです。NPU は AI 計算を CPU と GPU からオフロードするために設計されています。本研究の目的は、MoE 推論、特に長いコンテキストのワークロードがシステム資源を大量に消費する prefill 時に、こうしたオフロードを可能にすることです。
本論文では NPUMoE を提示します。これは、密で静的な計算を NPU にオフロードすることで Apple Silicon 上での MoE 実行を加速しつつ、動的な演算のための CPU/GPU のフォールバック経路を維持するランタイム推論エンジンです。NPUMoE はオフラインのキャリブレーションを用いて専門家の容量（capacity）と人気度（popularity）を推定し、これを駆動力として 3 つの主要技術を用います。(1) 動的な専門家ルーティングに対処するための専門家容量の静的ティア（Static tiers）、(2) NPU の並行性（concurrency）制限を緩和するためのグループ化された専門家実行（Grouped expert execution）、(3) CPU-NPU 間の同期オーバーヘッドを削減するための、負荷を考慮した専門家計算グラフのレジデンシ（residency）です。3 種類の代表的な MoE LLM と 4 つの長コンテキスト・ワークロードを用いた、Apple M シリーズデバイスでの実験により、NPUMoE は一貫してベースラインを上回り、レイテンシを 1.32x〜5.55x 削減し、エネルギー効率を 1.81x〜7.37x 改善し、効果的な NPU オフロードによって CPU サイクル使用量を 1.78x〜5.54x 削減することが示されています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/22Dailyインサイトを見る →

NEC、入社3カ月の新人が役員を「コンサル」／テスラのE2E自動運転技術FSD、オランダ承認など、注目記事を音声化

日経XTECH

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

IPAが「Open Data Spaces」仕様公開、AIエージェント対応で海外も注目

日経XTECH

Artlist Studioがローンチ、ARR 3億ドルに到達—生成AI動画の「連続性」問題に挑むプロダクション基盤

Innovatopia

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

AppleシリコンNPUによる効率的なMixture-of-Experts（MoE）LLM推論

要点

💡 この記事が使われたインサイト

関連記事

NEC、入社3カ月の新人が役員を「コンサル」／テスラのE2E自動運転技術FSD、オランダ承認など、注目記事を音声化

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

IPAが「Open Data Spaces」仕様公開、AIエージェント対応で海外も注目

Artlist Studioがローンチ、ARR 3億ドルに到達—生成AI動画の「連続性」問題に挑むプロダクション基盤

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

NEC、入社3カ月の新人が役員を「コンサル」／テスラのE2E自動運転技術FSD、オランダ承認 など、注目記事を音声化

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

IPAが「Open Data Spaces」仕様公開、AIエージェント対応で海外も注目

Artlist Studioがローンチ、ARR 3億ドルに到達—生成AI動画の「連続性」問題に挑むプロダクション基盤

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NEC、入社3カ月の新人が役員を「コンサル」／テスラのE2E自動運転技術FSD、オランダ承認など、注目記事を音声化

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に