Optimize MOE GEMV kernel for BS > 1. by gaugarg-nv · Pull Request #20905 · ggml-org/llama.cpp

Reddit r/LocalLLaMA / 3/30/2026

📰 NewsSignals & Early TrendsTools & Practical Usage

共有:

Key Points

ggml-org/llama.cpp の PR #20905 として、CUDA 限定で MOE（Mixture of Experts）の GEMV カーネルを BS > 1（バッチサイズが 1 より大きい場合）に最適化する変更が提案されています。
この更新の意図は、MOE 推論時の行列演算（GEMV）部分の実行効率を改善し、バッチ推論のスループットを高めることにあります。
PR のスレッドでは「どれくらいの speedup が出たか（CUDA のみ）」という点が焦点になっており、性能測定結果が重要視されています。
Llama.cpp のようなローカル推論スタック側でのカーネル最適化は、同環境での実運用（バッチ推論）に直接影響します。

...what's your speedup? (CUDA only)

This article is featured in our daily AI news digest — key takeaways and action items at a glance.

AI Business

Dev.to

Dev.to

Dev.to

Dev.to