M5 Max：Qwen 3 vs Qwen 3.5 のプリフィル性能（比較）

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Redditの検証レポートでは、LM Studio上で「Qwen3.5-9b-mlx 4bit」と「Qwen3VL-8b-mlx 4bit」を比較し、プリフィル（prefill）性能を確認したとされます。
前投稿で言及されたとおりQwen 3.5側の新しいアーキテクチャを試した結果、長いコンテキスト領域（128K+）で大幅に高速化したと述べています。
具体的にはハイブリッド・アテンション（hybrid attention）アーキテクチャが「ゲームチェンジャー」で、128K+で約2倍の速さになったとの結論です。

モデル：
qwen3.5-9b-mlx 4bit

qwen3VL-8b-mlx 4bit

LM Studio

前回の投稿で、ある人が新しいアーキテクチャのせいで、Qwen 3.5でも試してみるとよいと言っていました。結果：
ハイブリッド注意（attention）アーキテクチャは長いコンテキストではゲームチェンジャーで、128K+ではほぼ2倍高速です。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH