そこで、MTPをTBQ4_0(TurboQuantのロスレス4.25 bpv KVキャッシュ)と併用して、私の用途でQwen3.6-27B上で動かせないかいじっていました。
なので、1日ぶりぶり(vibecoding)いじった結果、何か実用になりそうなものは掴めた気がします。最初にコンパイルできたときはだいたい43 t/sだったのが、最適化した後は80〜87 t/sまで伸びました。さらに、その上でMTPのドラフト受け入れ率が約73%です。
動作環境:
- RTX 4090 24GB
- Qwen3.6-27B-Heretic-v2 Q4_K_M(MTPヘッドを移植)
- 262Kコンテキスト、TBQ4_0 KVキャッシュ、MTPドラフト3
- Ubuntu 24.04、CUDA 12.x
私は専門家というわけではないので改善の余地は多分ありますが、ちゃんと動きますし、出力品質も堅実そうです。誰かが試したり、このアプローチに穴を開けてみたりしたいなら、フォークはビルド可能です:
https://github.com/Indras-Mirror/llama.cpp-mtp
カーネルのアーキテクチャについて興味がある人向けに、Deepseekが技術的な詳細を書き起こしてくれています:
[link] [comments]
