最近、長い間のブランクを経てLMstudioをアップデートし、それに合わせてllama.cppのランタイムも更新しました.. 正直驚きました.. もしかすると turboquant のようなものがデフォルトで有効になっているのかと思ったのですが.. ただ、このモデルの対応がかなり良くなっただけのようです。
ステップ3.5のFlashは、コンテキストをロードする際の減速がこれまでより約2.5倍少なくなり、コンテキスト用のメモリ使用量も1/4になりました!
控えめにオーバークロックした5090 + RTX PRO 6000で、x8構成にすると、IQ4_NLでは以下が見えます:
最初のプロンプト = 125トークン/秒
170kコンテキスト = 75トークン/秒
以前はこうでした:
最初のプロンプト = 125トークン/秒
96kコンテキスト = 45トークン/秒
このコンテキストメモリが4倍安くなったので、Q4_K_Lも今なら問題なく動かせて、最大220kのコンテキストまでいけます..パフォーマンスが10%下がるのは許容できるなら。あるいは並列リクエストを設定することもできます :)
ステップ3.5のFlashは、エージェントやcline、そしてコンテキストを大量に消費する他のオーケストレーターで、今やずっと役に立つようになっています。
[リンク] [コメント]




