| モデル: qwen3VL-8b-mlx 4bit LM Studio 前回の投稿で、ある人が新しいアーキテクチャのせいで、Qwen 3.5でも試してみるとよいと言っていました。結果: [リンク] [コメント] |
M5 Max:Qwen 3 vs Qwen 3.5 のプリフィル性能(比較)
Reddit r/LocalLLaMA / 2026/3/26
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Redditの検証レポートでは、LM Studio上で「Qwen3.5-9b-mlx 4bit」と「Qwen3VL-8b-mlx 4bit」を比較し、プリフィル(prefill)性能を確認したとされます。
- 前投稿で言及されたとおりQwen 3.5側の新しいアーキテクチャを試した結果、長いコンテキスト領域(128K+)で大幅に高速化したと述べています。
- 具体的にはハイブリッド・アテンション(hybrid attention)アーキテクチャが「ゲームチェンジャー」で、128K+で約2倍の速さになったとの結論です。