AI Navigate

PowerShell スクリプトで llama.cpp MoE の nCpuMoe とバッチ設定を網羅的に探索

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

Reddit の投稿が、VRAM 制約下で速度の最適点を見つけるために llama.cpp MOE の nCpuMoe とバッチサイズを網羅する PowerShell スクリプトを説明しています。
MOE 設定とバッチサイズを二分探索風に走査し、各実行をベンチマークして、選択した指標（例: 完了時間、出力品質、プロンプト処理）に基づく最良の結果を追跡します。
裏で llama bench を使用し、最終的に実行のトップ5を表として出力します。これにより、バッチサイズと MOE のパフォーマンス間の非線形な関係が強調されます。
プロジェクトは DenysAshikhin/llama_moe_optimiser の GitHub 上で公開されており、著者は同様のツールがすでに存在する場合はフィードバックを求めています。

llama.cpp MoE の nCpuMoe とバッチ設定を一括検証する PowerShell スクリプトを書きました

皆さん、こんにちは、

Qwen 3.5 MOE モデルを試してきましたが、速度のための nCpuMoe とバッチサイズの最適な組み合わせは線形ではないことが分かりました。

異なる量子化設定の間で同じテストを繰り返すのは面倒でした。

この作業をすでに行うツールやスクリプトがある場合、私が見逃している場合は教えてください（見つけられませんでした）。

仕組み：

選択した最小の NCpuMoe とバッチサイズから開始します
それを基準としてベンチマークを取ります
二分探索を用いてバッチサイズを増やし、ベンチマークを実行します
選択した指標（完了までの時間、出力、プロンプト処理など）に基づいて最良の実行を記録します
最小から最大の MOE 設定をすべて試します
選択した指標に基づく上位5件の実行結果を表示します

全体は背後で llama bench を使っていますが、VRAM の制約を守りつつ二分スイープを行います。

https://preview.redd.it/s0rfxr4eegqg1.png?width=1208&format=png&auto=webp&s=3d288046376ab462147c82b036b72f6f3d4e51c6

興味がある方はこちらで見つけることができます: https://github.com/DenysAshikhin/llama_moe_optimiser

投稿者 /u/TheLastSpark
[リンク] [コメント]

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

2026年版：AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。