以下の仕様で、私のシステム上で巨大モデルを実行するための必要な巡礼を行っています(Qwen3.5 397B Q3_K_S ~170GB):
3950x
64GB DDR4 (デュアルチャネルで3000MHz)
VRAM 48GB(W6800 および RX 6800)
4TB Crucial P3 Plus(Gen4ドライブだが PCIe3 マザーボードにより速度が制限されています)
KTransformers の設定はうまくいきませんでした… これは Llama CPP を使用できますか?私は1秒あたり約1トークンに近づけるものを追い求めていますが、0.11トークン/秒のままです… ただし、私のシステムは VRAM(約40GB)を読み込み、その後は SSD を使用して残りを処理しているようです。「最初に60GBをRAMにロードする」 とは言えないようです。
これは正しいですか?Llama CPP を使った重いディスクのオフロードを行う既知の最良の方法はありますか?
[リンク] [コメント]

