私はこれをここからクロスポストしました( https://github.com/ggml-org/llama.cpp/discussions/20642 )、誰か回答をお持ちでしたら嬉しいです。私はエキスパートテンソルを特定のGPUにオフロードする方法を探していました。そして、KVキャッシュでも同じことを行う方法を見つけたいと考えています。
理由は、私には弱いGPUと強いGPUがあり、強いGPUには非エキスパートテンソルだけを置き、それ以外のすべてを弱いGPUに置きたいからです。
[リンク] [コメント]

