今月はカーソルの$20サブとzaiの$10サブを使い切ってしまったので、ローカルLLMのセットアップに切り替えました。RTX5090上でQwen3.5 27Bを動かして、良い結果が出て、tpsもかなり良好でした。コンテキストウィンドウは218kです。この構成では2つの同時セッションも動かせますが、セッションごとの速度は期待通り低下します。なぜかvllm 0.19で256kのフルコンテキストウィンドウがうまく動作しません。下のガイドどおりvllm 0.17では動きますが、0.17にはvllm 0.19にあるはずの最適化があまりないためtpsが低下します。
レシピ:
vllm 0.19(レシピhttps://huggingface.co/mconcat/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-NVFP4を参照);ただし私のテストではこのモデルはあまりうまく動かなかったので、使うことはおすすめしません。しかし、モデルカード内のガイドはかなり役に立ちます。
vllmのKVサイズ計算を修正するパッチ https://github.com/vllm-project/vllm/pull/36325(**これは超重要**)
model: hugging faceの osoleve/Qwen3.5-27B-Text-NVFP4-MTP(**画像処理ができないという欠点はありますが、かなりうまく動きます**)
cli: opencode
vllm設定:
vllm serve "Qwen3.5-27B-Text-NVFP4-MTP"
--max-model-len "218592"
--gpu-memory-utilization "0.93"
--attention-backend flashinfer
--performance-mode interactivity
--language-model-only
--kv-cache-dtype "fp8_e4m3"
--max-num-seqs "2"
--skip-mm-profiling
--quantization modelopt
--reasoning-parser qwen3
--chat-template "/root/autodl-tmp/llm-start/qwen3.5-enhanced.jinja"
--enable-auto-tool-choice
--enable-prefix-caching
--tool-call-parser qwen3_coder(**私のテストではqwen3_xmlよりqwen3_coderの方がうまく動きました**)
--host "0.0.0.0"
--port "6006"
[link] [comments]




