広告

llama.cpp:CPUへのオフロード時に重みをプリフェッチする

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • llama.cppの実験的PRとして、GPUからCPUへオフロードする際に必要な重みを事前取得(prefetching)する機能が追加されたと報告されています。
  • その結果、特に密なモデルや小規模MoE(Mixture of Experts)モデルのPP(prompt processing)でパフォーマンス改善が見込めるとされています。
  • GPUが不足していてRAMが潤沢な環境では効果が出やすい(ram-rich & gpu-poor)ため、該当するユーザーに試してほしいという位置づけです。
  • PR(https://github.com/ggml-org/llama.cpp/pull/21067)へのリンクが提示されており、コミュニティで検証・導入を促す内容です。

こんにちはr/LocalLLaMA、CPUにオフロードするときに重みをプリフェッチする実験的なPRを出しました。長話は省きますが、結果からするとPP(プロンプト処理)において、密な+より小さいMoEモデルに役立ちます。自分のようにメモリは余っているのにGPUが貧しい(不足している)場合は、ぜひ試してみてください。

https://github.com/ggml-org/llama.cpp/pull/21067

投稿者: /u/am17an
[リンク] [コメント]

広告