| ...what's your speedup? (CUDA only) [link] [comments] |
Optimize MOE GEMV kernel for BS > 1. by gaugarg-nv · Pull Request #20905 · ggml-org/llama.cpp
Reddit r/LocalLLaMA / 3/30/2026
📰 NewsSignals & Early TrendsTools & Practical Usage
Key Points
- ggml-org/llama.cpp の PR #20905 として、CUDA 限定で MOE(Mixture of Experts)の GEMV カーネルを BS > 1(バッチサイズが 1 より大きい場合)に最適化する変更が提案されています。
- この更新の意図は、MOE 推論時の行列演算(GEMV)部分の実行効率を改善し、バッチ推論のスループットを高めることにあります。
- PR のスレッドでは「どれくらいの speedup が出たか(CUDA のみ)」という点が焦点になっており、性能測定結果が重要視されています。
- Llama.cpp のようなローカル推論スタック側でのカーネル最適化は、同環境での実運用(バッチ推論)に直接影響します。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

EZRide Intel — I Built an AI Assistant for Boston's Hidden Free Bus Using Notion MCP
Dev.to

Booting Robikatsu — Day 0 Rebuilding my life while building an AI startup operating system
Dev.to

Notion Newsroom AI
Dev.to

What Is AI Execution Risk? Why AI Governance Fails at the Execution Boundary
Dev.to