New - Apple Neural Engine (ANE) backend for llama.cpp

Reddit r/LocalLLaMA / 3/31/2026

📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

Key Points

  • GitHubで、llama.cpp向けにApple Neural Engine(ANE)を使う「ggml ANE backend」が新たに動作する形で報告されています。
  • ANEに対してPRIVATE API経由でMUL_MATをディスパッチする実装になっており、Apple Silicon(特にM4 Pro)での推論高速化を狙っています。
  • M4 ProではN=256時にピーク4.0 TFLOPSを示し、CPUに対して最大16.8倍速いとされるほか、MIL側のtransposeやカーネルキャッシュ、量子化重みのサポートも挙げられています。
  • prefillはANE(N>=64)を用い、decodeはMetal/CPUを使い分ける構成であるため、ワークロード特性に応じた分担が行われています。
  • 実装コードはarozanov/ggml-aneとして公開され、maderix/ANE bridgeをベースにしているとされています。

This just showed up a couple of days ago on GitHub. Note that ANE is the NPU in all Apple Silicon, not the new 'Neural Accelerator' GPU cores that are only in M5.

(ggml-org/llama.cpp#10453) - Comment by arozanov

Built a working ggml ANE backend. Dispatches MUL_MAT to ANE via private API.

M4 Pro results:
4.0 TFLOPS peak at N=256, 16.8x faster than CPU
MIL-side transpose, kernel cache, quantized weight support
ANE for prefill (N>=64), Metal/CPU for decode

Code: https://github.com/arozanov/ggml-ane
Based on maderix/ANE bridge.

submitted by /u/PracticlySpeaking
[link] [comments]