Llama CPP - AMDでVRAM+CPU+SSDにモデルをロードする方法はありますか？

Reddit r/LocalLLaMA / 2026/3/19

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

この投稿は、AMDシステム上でVRAM、CPU RAM、SSDにデータを分散して、巨大なモデル（約170GB、例：Qwen3.5 397B Q3_K_S）をLlama CPPが実行できるかどうかを検証しています。
ユーザーは、VRAMが48GBのシステムで約40GBをVRAMにロードし、残りはSSDからアクセスされていると報告し、スループットは約0.11トークン/秒程度であると観察しています。
彼らはこの挙動が想定されるかどうかを尋ね、AMDハードウェアでの大容量ディスクオフロードとLlama CPPのパフォーマンス最適化に関する既知のベストプラクティスを求めています。
この議論は、新製品リリースというより、実践的なハードウェアとソフトウェアの最適化の問題として位置づけられています。

以下の仕様で、私のシステム上で巨大モデルを実行するための必要な巡礼を行っています（Qwen3.5 397B Q3_K_S ~170GB）:

3950x
64GB DDR4 (デュアルチャネルで3000MHz)
VRAM 48GB（W6800 および RX 6800）
4TB Crucial P3 Plus（Gen4ドライブだが PCIe3 マザーボードにより速度が制限されています）

KTransformers の設定はうまくいきませんでした… これは Llama CPP を使用できますか？私は1秒あたり約1トークンに近づけるものを追い求めていますが、0.11トークン/秒のままです… ただし、私のシステムは VRAM（約40GB）を読み込み、その後は SSD を使用して残りを処理しているようです。「最初に60GBをRAMにロードする」 とは言えないようです。

これは正しいですか？Llama CPP を使った重いディスクのオフロードを行う既知の最良の方法はありますか？

投稿者 /u/EmPips
[リンク] [コメント]

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

ブラウザだけで完結する運転免許証OCRデモを作ってみた

Qiita

成長を生み出すCRM開発

Dev.to

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

Llama CPP - AMDでVRAM+CPU+SSDにモデルをロードする方法はありますか？

要点

関連記事

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

ブラウザだけで完結する運転免許証OCRデモを作ってみた

成長を生み出すCRM開発

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer