Mac のメモリを超えるモデルを実行するために llama.cpp を使用しています

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • llama.cpp によって有効化される、アクセスパターンと帯域コストに基づいてモデルのテンソルを GPU、RAM、NVMe の階層間で分散させ、推論を最適化する方法として Hypura を紹介します。
  • MoE モデルでは特にうまく機能することが指摘されています。すべてのエキスパートを同時にメモリへ読み込む必要がないため、待機時には NVMe へオフロードすることが可能です。
  • Hypura は完全にオープンソースで、実装と利用のための GitHub リポジトリが提供されています。
  • このアプローチは階層化ストレージとハードウェア資源を活用することで、ローカル Mac のメモリ容量を超えるモデルの実行を可能にします。
I'm using llama.cpp to run models larger than my Mac's memory

皆さん、こんにちは、

他の人の役に立てばいいなと思い、共有したいことがあります。メモリ不足のため通常はローカルで実行できないモデルを実行するために、llama.cppを使って推論を最適化する方法を見つけました。これをHypuraと呼び、アクセスパターン、帯域コスト、ハードウェアの能力に基づいて、GPU、RAM、NVMeの階層にわたってモデルテンソルを配置します。

MoEモデルでは特にうまく機能することが分かっています。すべてのエキスパートを同時にメモリにロードする必要がないため、使用していない場合には他のエキスパートをNVMeへオフロードすることができます。

ここに Github を共有します。完全な OSS で、llama.cppのおかげでのみ可能です: https://github.com/t8/hypura

https://preview.redd.it/rq873yiieiqg1.png?width=2164&format=png&auto=webp&s=d1b591d767ccef8838536c47c0a5e8711bf36aa9

投稿者 /u/tbaumer22
[リンク] [コメント]