Qwen3.6 27BをvLLMのDockerコンテナで手軽に起動:Lorbus AutoRound INT4量子化とMTP speculative decoding、2×3090で118 tokens/秒

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この投稿では、ローカルでQwen3.6 27Bを提供するためのvLLMベースの手軽なDockerセットアップが紹介されています。
  • LorbusのAutoRound INT4量子化を利用してモデルのサイズを削減し、推論効率を高めています。
  • さらにMTP speculative decodingを適用し、トークン生成を高速化しています。
  • 著者は、2枚のNVIDIA RTX 3090で約118 tokens/秒の性能を報告しています。
によって投稿されました /u/tedivm
[リンク] [コメント]