広告

新機能 - llama.cpp向けのApple Neural Engine(ANE)バックエンド

Reddit r/LocalLLaMA / 2026/3/31

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • GitHubで、llama.cpp向けにApple Neural Engine(ANE)を使う「ggml ANE backend」が新たに動作する形で報告されています。
  • ANEに対してPRIVATE API経由でMUL_MATをディスパッチする実装になっており、Apple Silicon(特にM4 Pro)での推論高速化を狙っています。
  • M4 ProではN=256時にピーク4.0 TFLOPSを示し、CPUに対して最大16.8倍速いとされるほか、MIL側のtransposeやカーネルキャッシュ、量子化重みのサポートも挙げられています。
  • prefillはANE(N>=64)を用い、decodeはMetal/CPUを使い分ける構成であるため、ワークロード特性に応じた分担が行われています。
  • 実装コードはarozanov/ggml-aneとして公開され、maderix/ANE bridgeをベースにしているとされています。

これは数日前にGitHub上で見つかりました。ANEはApple Siliconのすべてに搭載されているNPUであり、新しいNeural Accelerator」GPUコア(M5のみに搭載)ではない点に注意してください。

(ggml-org/llama.cpp#10453) - arozanov のコメント

動作するggml ANEバックエンドを構築しました。MUL_MATを専用API経由でANEへディスパッチします。

M4 Proの結果:
N=256で4.0 TFLOPSピーク、CPUより16.8倍高速
MIL側の転置、カーネルキャッシュ、量子化された重みのサポート
prefill向けのANE(N>=64)、decodeはMetal/CPU

コード: https://github.com/arozanov/ggml-ane
maderix/ANE bridgeをベースにしています。

投稿者 /u/PracticlySpeaking
[リンク] [コメント]

広告