LocalLlama コミュニティへの大きなアップデート: Multi-Token Prediction (MTP) が qwen の mlx-lm-3.5 系列 に登場します。
(私の PR ではありません、これはただクールなので共有します)
前方パスごとに複数のトークンを生成する早期サポートが実装されており、利得はすでに堅実に見えます:
• 15.3 → 23.3 トークン/秒(約1.5x のスループット向上)
• 約80.6% の採択率
この PR の著者は M4 Pro 上で Qwen3.5-27B 4-bit でベンチマークを行いました。
この貢献をしてくれた AirRunner に大きな称賛を送ります
PR: https://github.com/ml-explore/mlx-lm/pull/990
[リンク] [コメント]




