MoE のエキスパートのオフローディングを急ぐ話が一段落した後、私は「よし、自分で体感してみよう」と思った。
テストを実施し、レビューを行い、磨きをかけ、もう一度テストしました。
さて現在、16G の MoE モデルを 8G の VRAM で動かしています。
これは VRAM に一定数のエキスパートをキャッシュとして保持し、残りを RAM に置くことで機能します。
キャッシュは LRUで、キャッシュミスが発生するとエキスパートの再配置が行われている間 CPU で計算が行われ、待機時間が短縮されます。
ぜひお試しになって、レビューをお願いします。
https://github.com/vllm-project/vllm/pull/37190
次の PR では mxfp4 や他の量子化形式(現時点では fp8 と bf16 のみ)、ディスクからのストリーミングと二層キャッシュ、RAM 制限のあるマシン向け、さらには vLLM の機能統合(EP/DP)に向けた多くの作業が追加されます。
これらの機能が他のプロジェクトで歓迎されるかどうか、教えてください。現在は vLLM を独占的に使用しているため、それらを調べる必要はありませんでした。
[リンク] [コメント]




