llama.cpp：CPUへのオフロード時に重みをプリフェッチする

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

llama.cppの実験的PRとして、GPUからCPUへオフロードする際に必要な重みを事前取得（prefetching）する機能が追加されたと報告されています。
その結果、特に密なモデルや小規模MoE（Mixture of Experts）モデルのPP（prompt processing）でパフォーマンス改善が見込めるとされています。
GPUが不足していてRAMが潤沢な環境では効果が出やすい（ram-rich & gpu-poor）ため、該当するユーザーに試してほしいという位置づけです。
PR（https://github.com/ggml-org/llama.cpp/pull/21067）へのリンクが提示されており、コミュニティで検証・導入を促す内容です。

こんにちはr/LocalLLaMA、CPUにオフロードするときに重みをプリフェッチする実験的なPRを出しました。長話は省きますが、結果からするとPP（プロンプト処理）において、密な＋より小さいMoEモデルに役立ちます。自分のようにメモリは余っているのにGPUが貧しい（不足している）場合は、ぜひ試してみてください。

https://github.com/ggml-org/llama.cpp/pull/21067

投稿者: /u/am17an
[リンク] [コメント]