Qwen3.6-27B-INT4：vLLM 0.19で1基のRTX 5090により256kコンテキスト時に100 tps超を実現

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

記事では、Qwen3.6-27B-INT4（AutoRound）モデルでネイティブな256kコンテキストを使い、105〜108トークン/秒（100+ tps）を達成したと報告しています。
セットアップはvLLM 0.19と単一のRTX 5090上で動作し、フルの256k長でも性能を保つための設定方針が中心になっています。
MTPがサポートされていることや、KLDの品質は良好とされ（NVFP4との比較でも優れていると説明）、量子化によりモデルサイズが小さい点が利点だと述べています。
著者はTQを設定しておらず、TQなしでもモデルがネイティブの最大コンテキスト長まで到達できるためだとしています。
FlashInferの注意（attention）バックエンド、fp8_e4m3のKVキャッシュdtype、auto_round量子化、MTPによる推論（speculative）デコードのパラメータなど、vLLMの詳細な起動設定が提示されています。

コミュニティのおかげで、Qwen3.6-27Bの速度はどんどん良くなっています。以下は、yesterdayの私のレシピを改良したもので、なんと100+ tps（TG）を達成しました。

モデル: https://huggingface.co/Lorbus/Qwen3.6-27B-int4-AutoRound

- MTP対応

- KLDは良好（リンク先の投稿によるとNVFP4よりかなり良い）で、さらに最小のモデルであるという利点があります

- 小さなモデルサイズにより、ネイティブの256kコンテキストウィンドウをフルで利用できます

トークン毎秒（TG）: 105-108 tps

このLorbusの量子化（クオンツ）を見つけるきっかけになった投稿への特別なクレジット: https://www.reddit.com/r/Olares/comments/1svg2ad/qwen3627b_at_85100_ts_on_a_24gb_rtx_5090_laptop/

なお、セットアップではTQはいじっていません。TQなしでも、モデルがネイティブで持つ最大コンテキスト長にすでに到達できるためです。

Vllm起動設定:

args=(

vllm serve "/root/autodl-tmp/llm-models"

--max-model-len "262144"

--gpu-memory-utilization "0.93"

--attention-backend flashinfer

--performance-mode interactivity

--language-model-only

--kv-cache-dtype "fp8_e4m3"

--max-num-seqs "2"

--skip-mm-profiling

--quantization auto_round

--reasoning-parser qwen3

--enable-auto-tool-choice

--enable-prefix-caching

--enable-chunked-prefill

--tool-call-parser qwen3_coder

--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

--host "0.0.0.0"

--port "6006"

)

提出者 /u/Kindly-Cantaloupe978
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/26Dailyインサイトを見る →

Black Hat USA

AI Business

無料でプログラミングの専門知識がなくてもAIエージェントやワークフローを作成できるローコードプラットフォーム「Langflow」

GIGAZINE

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

Dev.to

25万件のメンタル比較を打ち破る：クロスドメイン・エンジニアのエンティティ解決（Entity Resolution）事例

Dev.to

競合の低評価レビューからロードマップを作るClaude Codeスキルを自作した

Dev.to

Qwen3.6-27B-INT4：vLLM 0.19で1基のRTX 5090により256kコンテキスト時に100 tps超を実現

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

無料でプログラミングの専門知識がなくてもAIエージェントやワークフローを作成できるローコードプラットフォーム「Langflow」

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

25万件のメンタル比較を打ち破る：クロスドメイン・エンジニアのエンティティ解決（Entity Resolution）事例

競合の低評価レビューからロードマップを作るClaude Codeスキルを自作した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer