| 皆さん、こんにちは、 他の人の役に立てばいいなと思い、共有したいことがあります。メモリ不足のため通常はローカルで実行できないモデルを実行するために、llama.cppを使って推論を最適化する方法を見つけました。これをHypuraと呼び、アクセスパターン、帯域コスト、ハードウェアの能力に基づいて、GPU、RAM、NVMeの階層にわたってモデルテンソルを配置します。 MoEモデルでは特にうまく機能することが分かっています。すべてのエキスパートを同時にメモリにロードする必要がないため、使用していない場合には他のエキスパートをNVMeへオフロードすることができます。 ここに Github を共有します。完全な OSS で、llama.cppのおかげでのみ可能です: https://github.com/t8/hypura [リンク] [コメント] |
Mac のメモリを超えるモデルを実行するために llama.cpp を使用しています
Reddit r/LocalLLaMA / 2026/3/22
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- llama.cpp によって有効化される、アクセスパターンと帯域コストに基づいてモデルのテンソルを GPU、RAM、NVMe の階層間で分散させ、推論を最適化する方法として Hypura を紹介します。
- MoE モデルでは特にうまく機能することが指摘されています。すべてのエキスパートを同時にメモリへ読み込む必要がないため、待機時には NVMe へオフロードすることが可能です。
- Hypura は完全にオープンソースで、実装と利用のための GitHub リポジトリが提供されています。
- このアプローチは階層化ストレージとハードウェア資源を活用することで、ローカル Mac のメモリ容量を超えるモデルの実行を可能にします。


