qwen-3.5 用の Multi-Token Prediction (MTP) が mlx-lm に導入される

Reddit r/LocalLLaMA / 2026/3/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Multi-Token Prediction (MTP) は qwen-3.5 系列の mlx-lm に導入され、1回のフォワードパスで複数のトークンを生成できるようになります。
初期のベンチマークでは、スループットが1秒あたり15.3トークンから23.3トークンへと向上（約1.5倍）、採択率は約80.6%。
この機能は AirRunner チームによって提供され、GitHub のプルリクエスト mlx-lm/pull/990 に記載されています。
この更新は LocalLLaMA コミュニティの継続的な活動を反映しており、告知にリンクされた Reddit 投稿を通じて共有されています。

LocalLlama コミュニティへの大きなアップデート: Multi-Token Prediction (MTP) が qwen の mlx-lm-3.5 系列 に登場します。

(私の PR ではありません、これはただクールなので共有します)

前方パスごとに複数のトークンを生成する早期サポートが実装されており、利得はすでに堅実に見えます:

• 15.3 → 23.3 トークン/秒（約1.5x のスループット向上）
• 約80.6% の採択率

この PR の著者は M4 Pro 上で Qwen3.5-27B 4-bit でベンチマークを行いました。

この貢献をしてくれた AirRunner に大きな称賛を送ります
PR: https://github.com/ml-explore/mlx-lm/pull/990