| llama.cpp の MTP サポートが現在ベータ版になったことを報告できて嬉しいです。Aman(そして、その間にさまざまな課題を押し進めてくれた他の皆さん)のおかげです。これは近いうちに実際にマージされる可能性があります。現在は Qwen3.5 MTP のサポートを含んでいますが、他のモデルも追随していく見込みです。 これと、成熟してきたテンソル並列サポートの両方によって、少なくともトークン生成スピードの面では、llama.cpp と vLLM の間に存在する多くの性能差が解消されることを期待してください。 [link] [comments] |
Llama.cppのMTPサポートがベータ版になりました
Reddit r/LocalLLaMA / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この記事では、llama.cpp にMTP(マルチデバイス/マルチストリーム系)サポートがベータ版として導入されたと報じています。
- このベータ機能はAmanをはじめとする貢献者たちの取り組み(関連課題の進展)によるもので、近い将来にマージされる可能性があります。
- 現時点のMTP対応は Qwen3.5 MTP モデルに対して提供されており、今後ほかのモデルにも広がる見込みです。
- さらにテンソル並列サポートの成熟と合わせることで、トークン生成速度における llama.cpp と vLLM の性能差が縮小・解消される可能性があるとしています。



