vLLMにおける動的エキスパートキャッシュPR

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者は、vLLMにおける動的エキスパートキャッシュPRを説明し、VRAM 8GBで16GパラメータのMixture-of-Expertsモデルを実行可能にする。LRUポリシーを用いて、一部のエキスパートをVRAMにキャッシュし、残りをRAMに格納する。
キャッシュミスは CPU ベースの計算を誘発し、エキスパートが再配置される間に MoE 推論のレイテンシを低減する。
mxfp4を含む他の量子化形式（fp8および bf16 を超えるもの）、ディスクからのストリーミング、二層キャッシュ、RAM制限のあるマシン向けのEP/DP統合の改善など、計画中の拡張について説明している。
著者は他の人にもこの機能を試すこと、PRのレビューをすることを呼びかけており、vLLMの自身の利用を超えた他のプロジェクトへの適用可能性にも言及している。

MoE のエキスパートのオフローディングを急ぐ話が一段落した後、私は「よし、自分で体感してみよう」と思った。
テストを実施し、レビューを行い、磨きをかけ、もう一度テストしました。

さて現在、16G の MoE モデルを 8G の VRAM で動かしています。
これは VRAM に一定数のエキスパートをキャッシュとして保持し、残りを RAM に置くことで機能します。
キャッシュは LRUで、キャッシュミスが発生するとエキスパートの再配置が行われている間 CPU で計算が行われ、待機時間が短縮されます。
ぜひお試しになって、レビューをお願いします。
https://github.com/vllm-project/vllm/pull/37190

次の PR では mxfp4 や他の量子化形式（現時点では fp8 と bf16 のみ）、ディスクからのストリーミングと二層キャッシュ、RAM 制限のあるマシン向け、さらには vLLM の機能統合（EP/DP）に向けた多くの作業が追加されます。

これらの機能が他のプロジェクトで歓迎されるかどうか、教えてください。現在は vLLM を独占的に使用しているため、それらを調べる必要はありませんでした。

投稿者 /u/king_of_jupyter
[リンク] [コメント]