LLMが自分でllama.cppのフラグを調整（Qwen3.5-27Bで+54% tok/s）

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

プロジェクトのllm-server v2では、新しいオプション --ai-tune が導入されており、LLM駆動のループによってllama.cppのフラグを自動的にチューニングし、最も性能の良い構成をキャッシュします。
Qwen3.5-27Bに関して報告されているベンチマークでは、（例：最大で約40 tok/s）従来のチューニング手法やベースラインのllama-server構成と比べて、大幅なスループット向上が示されています。
チューニングシステムは、llama-server --help の出力をコンテキストとしてLLMに与えることで、継続的に変化する llama.cpp / ik_llama.cpp との互換性を保つよう設計されています。これにより、新しいフラグを手動で追随することなく採用できます。
著者は、このアプローチが安定性も改善し、TUI/GUI（llm-server-gui）によってより洗練されたオペレーター体験も提供すると主張しています。
この取り組みはオープンソースリポジトリへのアップデートとして共有されており、ローカルLLM推論の速度向上のために、他の人にもオートチューニングのワークフローを試して採用することを促しています。

これは私の以前の投稿のV2です。

変更点: --ai-tune — モデルがループ内で自分自身のフラグをチューニングし、見つけた中で最速の構成をキャッシュします。

私の変な構成: 3090 Ti + 4070 + 3060 + 128GB RAM。

モデル	llama-server	llm-server v1 チューニング	llm-server v2（ai-tuning）
Qwen3.5-122B	4.1 tok/s	11.2 tok/s	17.47 tok/s
Qwen3.5-27B Q4_K_M	18.5 tok/s	25.94 tok/s	40.05 tok/s
gemma-4-31B UD-Q4_K_XL	14.2 tok/s	23.17 tok/s	24.77 tok/s

ここで一番良いと思う点: --ai-tune は、llama-server --help を LLM チューニングループのコンテキストとして投入するため、llama.cpp / ik_llama.cpp の更新に自動で追従します。新しいフラグが入る → チューナーがそれを使えるようになる → 最適な性能が得られる、というわけです。

かなり堅実に伸びてると思います（最大トークン、ええっ、最高ですね）。さらに安定性も増して、llm-server-gui による良い感じの TUI もあります。

ぜひ見てください: https://github.com/raketenkater/llm-server

投稿者 /u/raketenkater
[リンク] [コメント]