MTP＋TurboQuantをQwen3.6-27Bで動かしてみた—RTX 4090 1枚で262Kコンテキスト、80t/s超

Reddit r/LocalLLaMA / 2026/5/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、Qwen3.6-27BでMTPをTurboQuant（損失なしの4.25 bpv KVキャッシュ）と併用して動作させることに成功したと報告しています。
最初はコンパイル時点で約43 t/sだったものの、最適化により約80〜87 t/sまで向上したとされ、MTPのドラフト受理率は約73%とのことです。
設定はRTX 4090（24GB）1枚で、262Kのコンテキスト長、TBQ4_0 KVキャッシュ、MTPドラフト3を使い、Ubuntu 24.04・CUDA 12.x上で動かしています。
成果はビルド可能なllama.cpp-mtpのフォークとして共有されており、同著者によるカーネルアーキテクチャの詳細（Deepseekが技術整理）も別投稿で案内されています。
著者は専門家ではないものの、手法は実用的に動作し、出力品質も良好に見えるとしており、他者にテストや指摘を呼びかけています。

そこで、MTPをTBQ4_0（TurboQuantのロスレス4.25 bpv KVキャッシュ）と併用して、私の用途でQwen3.6-27B上で動かせないかいじっていました。

なので、1日ぶりぶり（vibecoding）いじった結果、何か実用になりそうなものは掴めた気がします。最初にコンパイルできたときはだいたい43 t/sだったのが、最適化した後は80〜87 t/sまで伸びました。さらに、その上でMTPのドラフト受け入れ率が約73%です。

動作環境：

- RTX 4090 24GB

- Qwen3.6-27B-Heretic-v2 Q4_K_M（MTPヘッドを移植）

- 262Kコンテキスト、TBQ4_0 KVキャッシュ、MTPドラフト3

- Ubuntu 24.04、CUDA 12.x

私は専門家というわけではないので改善の余地は多分ありますが、ちゃんと動きますし、出力品質も堅実そうです。誰かが試したり、このアプローチに穴を開けてみたりしたいなら、フォークはビルド可能です：

https://github.com/Indras-Mirror/llama.cpp-mtp

カーネルのアーキテクチャについて興味がある人向けに、Deepseekが技術的な詳細を書き起こしてくれています：

https://indrasmirror.au/blog-mtp-shared-tensors-200k.html

submitted by /u/indrasmirror
[link] [comments]

Black Hat USA

AI Business

データセンター建設ブーム、建築設計の自動化を後押しするか

日経XTECH

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

日経XTECH

VLA内製へ、ローム買収に意欲

日経XTECH

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか

日経XTECH

MTP＋TurboQuantをQwen3.6-27Bで動かしてみた—RTX 4090 1枚で262Kコンテキスト、80t/s超

要点

関連記事

Black Hat USA

データセンター建設ブーム、建築設計の自動化を後押しするか

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

VLA内製へ、ローム買収に意欲

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

データセンター建設ブーム、建築設計の自動化を後押しするか

ソフトバンクが生成AIで特許を大量出願、問われる知財部の役割

VLA内製へ、ローム買収に意欲

ルネサス、独自コアの車載マイコンで4年半ぶり新製品 暗号処理専用のハードウエアアクセラレーターを搭載 ほか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ルネサス、独自コアの車載マイコンで4年半ぶり新製品暗号処理専用のハードウエアアクセラレーターを搭載ほか