M5 Max Qwen 3 VS Qwen 3.5 Pre-fill Performance

Reddit r/LocalLLaMA / 3/26/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • Redditの検証レポートでは、LM Studio上で「Qwen3.5-9b-mlx 4bit」と「Qwen3VL-8b-mlx 4bit」を比較し、プリフィル(prefill)性能を確認したとされます。
  • 前投稿で言及されたとおりQwen 3.5側の新しいアーキテクチャを試した結果、長いコンテキスト領域(128K+)で大幅に高速化したと述べています。
  • 具体的にはハイブリッド・アテンション(hybrid attention)アーキテクチャが「ゲームチェンジャー」で、128K+で約2倍の速さになったとの結論です。
M5 Max Qwen 3 VS Qwen 3.5 Pre-fill Performance

Models:
qwen3.5-9b-mlx 4bit

qwen3VL-8b-mlx 4bit

LM Studio

From my previous post one guy mentioned to test it with the Qwen 3.5 because of a new arch. The results:
The hybrid attention architecture is a game changer for long contexts, nearly 2x faster at 128K+.

submitted by /u/M5_Maxxx
[link] [comments]