広告

gaugarg-nv による PR #20905:BS > 1 のために MOE GEMV カーネルを最適化(ggml-org/llama.cpp)

Reddit r/LocalLLaMA / 2026/3/30

📰 ニュースSignals & Early TrendsTools & Practical Usage

要点

  • ggml-org/llama.cpp の PR #20905 として、CUDA 限定で MOE(Mixture of Experts)の GEMV カーネルを BS > 1(バッチサイズが 1 より大きい場合)に最適化する変更が提案されています。
  • この更新の意図は、MOE 推論時の行列演算(GEMV)部分の実行効率を改善し、バッチ推論のスループットを高めることにあります。
  • PR のスレッドでは「どれくらいの speedup が出たか(CUDA のみ)」という点が焦点になっており、性能測定結果が重要視されています。
  • Llama.cpp のようなローカル推論スタック側でのカーネル最適化は、同環境での実運用(バッチ推論)に直接影響します。
Optimize MOE GEMV kernel for BS > 1. by gaugarg-nv · Pull Request #20905 · ggml-org/llama.cpp

...どれくらいの高速化ですか?(CUDAのみ)

提出者: /u/jacek2023
[リンク] [コメント]

広告