変更点: --ai-tune — モデルがループ内で自分自身のフラグをチューニングし、見つけた中で最速の構成をキャッシュします。
私の変な構成: 3090 Ti + 4070 + 3060 + 128GB RAM。
| モデル | llama-server | llm-server v1 チューニング | llm-server v2(ai-tuning) |
|---|---|---|---|
| Qwen3.5-122B | 4.1 tok/s | 11.2 tok/s | 17.47 tok/s |
| Qwen3.5-27B Q4_K_M | 18.5 tok/s | 25.94 tok/s | 40.05 tok/s |
| gemma-4-31B UD-Q4_K_XL | 14.2 tok/s | 23.17 tok/s | 24.77 tok/s |
ここで一番良いと思う点: --ai-tune は、llama-server --help を LLM チューニングループのコンテキストとして投入するため、llama.cpp / ik_llama.cpp の更新に自動で追従します。新しいフラグが入る → チューナーがそれを使えるようになる → 最適な性能が得られる、というわけです。
かなり堅実に伸びてると思います(最大トークン、ええっ、最高ですね)。さらに安定性も増して、llm-server-gui による良い感じの TUI もあります。
[リンク] [コメント]




