llama.cpp: Prefetching weights when offloading to CPU

Reddit r/LocalLLaMA / 3/28/2026

💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

Key Points

  • llama.cppの実験的PRとして、GPUからCPUへオフロードする際に必要な重みを事前取得(prefetching)する機能が追加されたと報告されています。
  • その結果、特に密なモデルや小規模MoE(Mixture of Experts)モデルのPP(prompt processing)でパフォーマンス改善が見込めるとされています。
  • GPUが不足していてRAMが潤沢な環境では効果が出やすい(ram-rich & gpu-poor)ため、該当するユーザーに試してほしいという位置づけです。
  • PR(https://github.com/ggml-org/llama.cpp/pull/21067)へのリンクが提示されており、コミュニティで検証・導入を促す内容です。

Hello r/LocalLLaMA, I put up an experimental PR which prefetches weights when offloading to CPU. Long story short from results it helps dense + smaller MoE models for PP (prompt processing). Give it a try if you are ram-rich and gpu-poor like me.

https://github.com/ggml-org/llama.cpp/pull/21067

submitted by /u/am17an
[link] [comments]