役に立つかもしれないと思った人向けに書きますが、最近、AMD Strix Halo で base 設定の llama.cpp から Lemonade SDK に乗り換えたところ、すぐに体感がかなり良くなりました。同じモデルを同じハードウェアで動かしたとき、平均で tokens per second が 20% ほど向上しています。
AMD 向けの話で、調整が必要になるかもしれませんが、私にとっては生活の質が大きく上がるレベルの改善でした。実際にエージェントとのやり取りを行ったり、深いリサーチがスムーズに動いたりと、以前は止まりそうに感じていた多くのことが、ずっときれいに・速く動くようになっています。どちらにせよ、共有するだけです。この 2,500 ドルのマシンにとって、今では本当に別の惑星みたいな感じがします。言っておきたかったです。
Qwen3-Coder-Next: 平均 70 tokens per second から、他の条件が同じ場合は平均 90 tokens per second へ。
それに、予算が限られているなら Halo は本当に素晴らしいマシンです。
[リンク] [コメント]