LLMが自分でllama.cppのフラグを調整(Qwen3.5-27Bで+54% tok/s)

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • プロジェクトのllm-server v2では、新しいオプション --ai-tune が導入されており、LLM駆動のループによってllama.cppのフラグを自動的にチューニングし、最も性能の良い構成をキャッシュします。
  • Qwen3.5-27Bに関して報告されているベンチマークでは、(例:最大で約40 tok/s)従来のチューニング手法やベースラインのllama-server構成と比べて、大幅なスループット向上が示されています。
  • チューニングシステムは、llama-server --help の出力をコンテキストとしてLLMに与えることで、継続的に変化する llama.cpp / ik_llama.cpp との互換性を保つよう設計されています。これにより、新しいフラグを手動で追随することなく採用できます。
  • 著者は、このアプローチが安定性も改善し、TUI/GUI(llm-server-gui)によってより洗練されたオペレーター体験も提供すると主張しています。
  • この取り組みはオープンソースリポジトリへのアップデートとして共有されており、ローカルLLM推論の速度向上のために、他の人にもオートチューニングのワークフローを試して採用することを促しています。

これは私の以前の投稿V2です。

変更点: --ai-tune — モデルがループ内で自分自身のフラグをチューニングし、見つけた中で最速の構成をキャッシュします。

私の変な構成: 3090 Ti + 4070 + 3060 + 128GB RAM。

モデル llama-server llm-server v1 チューニング llm-server v2(ai-tuning)
Qwen3.5-122B 4.1 tok/s 11.2 tok/s 17.47 tok/s
Qwen3.5-27B Q4_K_M 18.5 tok/s 25.94 tok/s 40.05 tok/s
gemma-4-31B UD-Q4_K_XL 14.2 tok/s 23.17 tok/s 24.77 tok/s

ここで一番良いと思う点: --ai-tune は、llama-server --help を LLM チューニングループのコンテキストとして投入するため、llama.cpp / ik_llama.cpp の更新に自動で追従します。新しいフラグが入る → チューナーがそれを使えるようになる → 最適な性能が得られる、というわけです。

かなり堅実に伸びてると思います(最大トークン、ええっ、最高ですね)。さらに安定性も増して、llm-server-gui による良い感じの TUI もあります。

ぜひ見てください: https://github.com/raketenkater/llm-server

投稿者 /u/raketenkater
[リンク] [コメント]