AI Navigate

KVキャッシュに使用するGPUをどのように指定しますか?エキスパートテンソルを特定のGPUへオフロードする方法は?

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • llama.cpp / LocalLLaMA における KV キャッシュに使用する GPU を指定する方法を著者が求めています。
  • 2つの GPU 構成で、エキスパートテンソルを特定の GPU にオフロードし、非エキスパートテンソルをより強力な GPU に配置したいと考えています。
  • 目的は、強力な GPU を重要なテンソルに専用化し、弱い GPU を残りのテンソルへ割り当てることでリソース使用を最適化することです。
  • この投稿は GitHub のディスカッションからクロス投稿されており、そのディスカッションへのリンクが含まれています。
  • マルチGPU推論でテンソルごとの GPU オフロードを実現する実践的な指針やコードレベルの解決策を求めています。

私はこれをここからクロスポストしました( https://github.com/ggml-org/llama.cpp/discussions/20642 )、誰か回答をお持ちでしたら嬉しいです。私はエキスパートテンソルを特定のGPUにオフロードする方法を探していました。そして、KVキャッシュでも同じことを行う方法を見つけたいと考えています。

理由は、私には弱いGPUと強いGPUがあり、強いGPUには非エキスパートテンソルだけを置き、それ以外のすべてを弱いGPUに置きたいからです。

投稿者 /u/milpster
[リンク] [コメント]