Qwen 27Bおよびその他の高密度モデルの最適化

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • ユーザーは、Qwen 3.5 35Bから、64GBのMac M2 Max Studio上で動作する高密度27Bモデルへ切り替えたところ、出力品質は大幅に改善したものの、生成速度は依然として非常に低く(約3トークン/秒)だと報告している。
  • 彼らは、LM StudiosとOpenclawを通じて実行しながら、すでにいくつかの性能関連の設定を行っていると列挙している(KVキャッシュ量子化をQ8、GPUオフロード、flash attention、mmap、最大同時実行数4、評価バッチ2048、CPUスレッド数8)。
  • 投稿では、スループットを高め、レイテンシを下げるための追加のヒントを求めており、とりわけ、スケジュールされたジョブやタイミングの競合による問題を避けたいとしている。
  • ユーザーは、モデルの速度が、スケジューラのパラメータを調整しても、下流のワークフローの信頼性に影響する点を強調している。

みなさん、こんにちは。

kvキャッシュの量子化がこれほど大きな違いを生むとは気づいていなかったので、64ギガのMac M2 Max Studioを使って、Qwen 3.5 35b a3bから、denseの27bに切り替えました。気に入っています。これは大きな違いなんですが、1秒あたりせいぜい3トークンくらいです。kvキャッシュはq8、GPUへのオフロード、flash attention、mmap、最大同時実行数4、評価バッチ2048、CPUは8、GPUオフロードはフル(64)にしています。LM Studiosを使っていて、すべてをOpenclaw経由で動かしています。

スピードを上げるためにできることが何かあるのか、ちょっと気になっています。出力は素晴らしいのですが、とにかく遅いのでいくつか問題が出ます。特に、スケジュールされたジョブでは、設定を調整してもです。ハートビートが、私がf'dしている通常のメッセージにぶつかることがあるのですが、何かコツはありますか。ぜひ教えてください。

提供者: /u/Jordanthecomeback
[link] [comments]