これは数日前にGitHub上で見つかりました。ANEはApple Siliconのすべてに搭載されているNPUであり、新しい「Neural Accelerator」GPUコア(M5のみに搭載)ではない点に注意してください。
(ggml-org/llama.cpp#10453) - arozanov のコメント
動作するggml ANEバックエンドを構築しました。MUL_MATを専用API経由でANEへディスパッチします。
M4 Proの結果:
N=256で4.0 TFLOPSピーク、CPUより16.8倍高速
MIL側の転置、カーネルキャッシュ、量子化された重みのサポート
prefill向けのANE(N>=64)、decodeはMetal/CPUコード: https://github.com/arozanov/ggml-ane
maderix/ANE bridgeをベースにしています。
[リンク] [コメント]




