みなさん、こんにちは。
kvキャッシュの量子化がこれほど大きな違いを生むとは気づいていなかったので、64ギガのMac M2 Max Studioを使って、Qwen 3.5 35b a3bから、denseの27bに切り替えました。気に入っています。これは大きな違いなんですが、1秒あたりせいぜい3トークンくらいです。kvキャッシュはq8、GPUへのオフロード、flash attention、mmap、最大同時実行数4、評価バッチ2048、CPUは8、GPUオフロードはフル(64)にしています。LM Studiosを使っていて、すべてをOpenclaw経由で動かしています。
スピードを上げるためにできることが何かあるのか、ちょっと気になっています。出力は素晴らしいのですが、とにかく遅いのでいくつか問題が出ます。特に、スケジュールされたジョブでは、設定を調整してもです。ハートビートが、私がf'dしている通常のメッセージにぶつかることがあるのですが、何かコツはありますか。ぜひ教えてください。
[link] [comments]




