| 皆さん、こんにちは、 Qwen 3.5 MOE モデルを試してきましたが、速度のための nCpuMoe とバッチサイズの最適な組み合わせは線形ではないことが分かりました。 異なる量子化設定の間で同じテストを繰り返すのは面倒でした。 この作業をすでに行うツールやスクリプトがある場合、私が見逃している場合は教えてください(見つけられませんでした)。 仕組み:
全体は背後で llama bench を使っていますが、VRAM の制約を守りつつ二分スイープを行います。 興味がある方はこちらで見つけることができます: https://github.com/DenysAshikhin/llama_moe_optimiser [リンク] [コメント] |
PowerShell スクリプトで llama.cpp MoE の nCpuMoe とバッチ設定を網羅的に探索
Reddit r/LocalLLaMA / 2026/3/22
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- Reddit の投稿が、VRAM 制約下で速度の最適点を見つけるために llama.cpp MOE の nCpuMoe とバッチサイズを網羅する PowerShell スクリプトを説明しています。
- MOE 設定とバッチサイズを二分探索風に走査し、各実行をベンチマークして、選択した指標(例: 完了時間、出力品質、プロンプト処理)に基づく最良の結果を追跡します。
- 裏で llama bench を使用し、最終的に実行のトップ5を表として出力します。これにより、バッチサイズと MOE のパフォーマンス間の非線形な関係が強調されます。
- プロジェクトは DenysAshikhin/llama_moe_optimiser の GitHub 上で公開されており、著者は同様のツールがすでに存在する場合はフィードバックを求めています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to
2026年版:AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法
Dev.to