によって投稿されました /u/tedivm
[リンク] [コメント]
Qwen3.6 27BをvLLMのDockerコンテナで手軽に起動:Lorbus AutoRound INT4量子化とMTP speculative decoding、2×3090で118 tokens/秒
Reddit r/LocalLLaMA / 2026/4/27
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- この投稿では、ローカルでQwen3.6 27Bを提供するためのvLLMベースの手軽なDockerセットアップが紹介されています。
- LorbusのAutoRound INT4量子化を利用してモデルのサイズを削減し、推論効率を高めています。
- さらにMTP speculative decodingを適用し、トークン生成を高速化しています。
- 著者は、2枚のNVIDIA RTX 3090で約118 tokens/秒の性能を報告しています。




