AI Navigate

PowerShell スクリプトで llama.cpp MoE の nCpuMoe とバッチ設定を網羅的に探索

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Reddit の投稿が、VRAM 制約下で速度の最適点を見つけるために llama.cpp MOE の nCpuMoe とバッチサイズを網羅する PowerShell スクリプトを説明しています。
  • MOE 設定とバッチサイズを二分探索風に走査し、各実行をベンチマークして、選択した指標(例: 完了時間、出力品質、プロンプト処理)に基づく最良の結果を追跡します。
  • 裏で llama bench を使用し、最終的に実行のトップ5を表として出力します。これにより、バッチサイズと MOE のパフォーマンス間の非線形な関係が強調されます。
  • プロジェクトは DenysAshikhin/llama_moe_optimiser の GitHub 上で公開されており、著者は同様のツールがすでに存在する場合はフィードバックを求めています。
llama.cpp MoE の nCpuMoe とバッチ設定を一括検証する PowerShell スクリプトを書きました

皆さん、こんにちは、

Qwen 3.5 MOE モデルを試してきましたが、速度のための nCpuMoe とバッチサイズの最適な組み合わせは線形ではないことが分かりました。

異なる量子化設定の間で同じテストを繰り返すのは面倒でした。

この作業をすでに行うツールやスクリプトがある場合、私が見逃している場合は教えてください(見つけられませんでした)。

仕組み:

  1. 選択した最小の NCpuMoe とバッチサイズから開始します
  2. それを基準としてベンチマークを取ります
  3. 二分探索を用いてバッチサイズを増やし、ベンチマークを実行します
  4. 選択した指標(完了までの時間、出力、プロンプト処理など)に基づいて最良の実行を記録します
  5. 最小から最大の MOE 設定をすべて試します
  6. 選択した指標に基づく上位5件の実行結果を表示します

全体は背後で llama bench を使っていますが、VRAM の制約を守りつつ二分スイープを行います。

https://preview.redd.it/s0rfxr4eegqg1.png?width=1208&format=png&auto=webp&s=3d288046376ab462147c82b036b72f6f3d4e51c6

興味がある方はこちらで見つけることができます: https://github.com/DenysAshikhin/llama_moe_optimiser

投稿者 /u/TheLastSpark
[リンク] [コメント]