MTP+TurboQuantをQwen3.6-27Bで動かしてみた—RTX 4090 1枚で262Kコンテキスト、80t/s超

Reddit r/LocalLLaMA / 2026/5/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、Qwen3.6-27BでMTPをTurboQuant(損失なしの4.25 bpv KVキャッシュ)と併用して動作させることに成功したと報告しています。
  • 最初はコンパイル時点で約43 t/sだったものの、最適化により約80〜87 t/sまで向上したとされ、MTPのドラフト受理率は約73%とのことです。
  • 設定はRTX 4090(24GB)1枚で、262Kのコンテキスト長、TBQ4_0 KVキャッシュ、MTPドラフト3を使い、Ubuntu 24.04・CUDA 12.x上で動かしています。
  • 成果はビルド可能なllama.cpp-mtpのフォークとして共有されており、同著者によるカーネルアーキテクチャの詳細(Deepseekが技術整理)も別投稿で案内されています。
  • 著者は専門家ではないものの、手法は実用的に動作し、出力品質も良好に見えるとしており、他者にテストや指摘を呼びかけています。

そこで、MTPをTBQ4_0(TurboQuantのロスレス4.25 bpv KVキャッシュ)と併用して、私の用途でQwen3.6-27B上で動かせないかいじっていました。

なので、1日ぶりぶり(vibecoding)いじった結果、何か実用になりそうなものは掴めた気がします。最初にコンパイルできたときはだいたい43 t/sだったのが、最適化した後は80〜87 t/sまで伸びました。さらに、その上でMTPのドラフト受け入れ率が約73%です。

動作環境:

- RTX 4090 24GB

- Qwen3.6-27B-Heretic-v2 Q4_K_M(MTPヘッドを移植)

- 262Kコンテキスト、TBQ4_0 KVキャッシュ、MTPドラフト3

- Ubuntu 24.04、CUDA 12.x

私は専門家というわけではないので改善の余地は多分ありますが、ちゃんと動きますし、出力品質も堅実そうです。誰かが試したり、このアプローチに穴を開けてみたりしたいなら、フォークはビルド可能です:

https://github.com/Indras-Mirror/llama.cpp-mtp

カーネルのアーキテクチャについて興味がある人向けに、Deepseekが技術的な詳細を書き起こしてくれています:

https://indrasmirror.au/blog-mtp-shared-tensors-200k.html

submitted by /u/indrasmirror
[link] [comments]