M5 Max:Qwen 3 vs Qwen 3.5 のプリフィル性能(比較)

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditの検証レポートでは、LM Studio上で「Qwen3.5-9b-mlx 4bit」と「Qwen3VL-8b-mlx 4bit」を比較し、プリフィル(prefill)性能を確認したとされます。
  • 前投稿で言及されたとおりQwen 3.5側の新しいアーキテクチャを試した結果、長いコンテキスト領域(128K+)で大幅に高速化したと述べています。
  • 具体的にはハイブリッド・アテンション(hybrid attention)アーキテクチャが「ゲームチェンジャー」で、128K+で約2倍の速さになったとの結論です。
M5 Max Qwen 3 VS Qwen 3.5 Pre-fill Performance

モデル:
qwen3.5-9b-mlx 4bit

qwen3VL-8b-mlx 4bit

LM Studio

前回の投稿で、ある人が新しいアーキテクチャのせいで、Qwen 3.5でも試してみるとよいと言っていました。結果:
ハイブリッド注意(attention)アーキテクチャは長いコンテキストではゲームチェンジャーで、128K+ではほぼ2倍高速です。

投稿者: /u/M5_Maxxx
[リンク] [コメント]