FYI、Step 3.5 Flashはパフォーマンスが向上し、llama.cppではコンテキストの価格が1/4

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditの投稿によると、llama.cpp/LM Studioを更新したことでStep 3.5 Flashモデルの対応が改善され、コンテキスト長が長くなるほどパフォーマンスが良くなった。
  • 報告では、Step 3.5 Flashは大きなコンテキストを読み込む際の減速が約2.5倍小さく、また、従来のセットアップと比べてコンテキストに必要なメモリ使用量はおよそ1/4に抑えられる。
  • 著者はベンチマーク例を提示しており、170kコンテキストではトークン毎秒が75トークン/秒だったのに対し、以前の96kコンテキストでは45トークン/秒で、最初のプロンプト速度は同じだった。
  • コンテキスト用メモリが安価なため、この投稿では、より大きな量子化バリアント(例:Q4_K_L)を約220kコンテキストまで実行しても、性能低下はおよそ10%程度にとどまる、または複数の並列リクエストでスループットを回復できると主張している。
  • 著者は、Step 3.5 Flashがエージェント型のワークフローや、非常に大量のコンテキストを消費するオーケストレータ(Clineのようなもの)にとって、より実用的になったと論じている。

最近、長い間のブランクを経てLMstudioをアップデートし、それに合わせてllama.cppのランタイムも更新しました.. 正直驚きました.. もしかすると turboquant のようなものがデフォルトで有効になっているのかと思ったのですが.. ただ、このモデルの対応がかなり良くなっただけのようです。

ステップ3.5のFlashは、コンテキストをロードする際の減速がこれまでより約2.5倍少なくなり、コンテキスト用のメモリ使用量も1/4になりました!

控えめにオーバークロックした5090 + RTX PRO 6000で、x8構成にすると、IQ4_NLでは以下が見えます:
最初のプロンプト = 125トークン/秒
170kコンテキスト = 75トークン/秒

以前はこうでした:
最初のプロンプト = 125トークン/秒
96kコンテキスト = 45トークン/秒

このコンテキストメモリが4倍安くなったので、Q4_K_Lも今なら問題なく動かせて、最大220kのコンテキストまでいけます..パフォーマンスが10%下がるのは許容できるなら。あるいは並列リクエストを設定することもできます :)

ステップ3.5のFlashは、エージェントやcline、そしてコンテキストを大量に消費する他のオーケストレーターで、今やずっと役に立つようになっています。

投稿者 /u/mr_zerolith
[リンク] [コメント]