Llama CPP - AMDでVRAM+CPU+SSDにモデルをロードする方法はありますか?

Reddit r/LocalLLaMA / 2026/3/19

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この投稿は、AMDシステム上でVRAM、CPU RAM、SSDにデータを分散して、巨大なモデル(約170GB、例:Qwen3.5 397B Q3_K_S)をLlama CPPが実行できるかどうかを検証しています。
  • ユーザーは、VRAMが48GBのシステムで約40GBをVRAMにロードし、残りはSSDからアクセスされていると報告し、スループットは約0.11トークン/秒程度であると観察しています。
  • 彼らはこの挙動が想定されるかどうかを尋ね、AMDハードウェアでの大容量ディスクオフロードとLlama CPPのパフォーマンス最適化に関する既知のベストプラクティスを求めています。
  • この議論は、新製品リリースというより、実践的なハードウェアとソフトウェアの最適化の問題として位置づけられています。

以下の仕様で、私のシステム上で巨大モデルを実行するための必要な巡礼を行っています(Qwen3.5 397B Q3_K_S ~170GB):

  • 3950x

  • 64GB DDR4 (デュアルチャネルで3000MHz)

  • VRAM 48GB(W6800 および RX 6800)

  • 4TB Crucial P3 Plus(Gen4ドライブだが PCIe3 マザーボードにより速度が制限されています)

KTransformers の設定はうまくいきませんでした… これは Llama CPP を使用できますか?私は1秒あたり約1トークンに近づけるものを追い求めていますが、0.11トークン/秒のままです… ただし、私のシステムは VRAM(約40GB)を読み込み、その後は SSD を使用して残りを処理しているようです。「最初に60GBをRAMにロードする」 とは言えないようです。

これは正しいですか?Llama CPP を使った重いディスクのオフロードを行う既知の最良の方法はありますか?

投稿者 /u/EmPips
[リンク] [コメント]