| 最近、エージェント的タスクにおける deepseek v4 のベンチマークを行いました。性能面では、予想通り、オープンソースとしては最高クラスのモデルの一つです。私を本当に驚かせたのはコストです。安いのは分かっていますが、「そんなふうに安くなるのは理屈に合わないのでは?」と思えるほど安いんです。 コスト見積もり例として v4 flash を取り上げましょう。セール対象ではないため(つまり、実際の提供側コストをより反映できます)。 openrouter上での deepseek v4 flash の価格 OpenRouterの価格を見ると、deepseek v4 flash の価格は opus 4.7 の価格の約 0.03 倍です。(長いエージェント的タスクでは、入力トークンが支配的なコストになるため、入力トークン価格だけを見ています。)つまり、v4 flash が opus 4.7 と同程度の量のトークンをタスクで使うなら、実際のコストは opus を使う場合と比べて 0.03 倍あたりになるはずです。 実データそこでベンチマークを回しました。openclaw 上で長いエージェント的タスクを実行し(エージェントループに PI を使用)、モデル提供は openrouter としました。実際のコストデータは、私の感覚を覆しました:
どういうわけか deepseek v4 flash は、タスクあたりのトークン使用量とツール呼び出し数がほぼ同じなのに、opus 4.7 と比べてタスクあたりのコストが約 0.0066 倍でした。見積もった価格の 1/5 しかありません。これはどうしてあり得るのでしょうか?? 秘密の武器生データを掘り下げ、より詳細な統計を集めたところ、ようやく理由が分かりました。秘密はキャッシュヒット率とキャッシュ読み取り(リード)の価格です。
このケースで主な要因はキャッシュヒット率です。DeepSeek はなんとか 97% のキャッシュヒット率を達成したのです!!! この数字がどれほど重要か分からない場合に備えて言うと、このキャッシュヒット率と読み書き価格の比率の条件では、キャッシュヒット率が 1% 高いだけで全体のコストが約 20% 下がります。 DS は opus よりもキャッシュ率が 10% 高い。これだけで全コストの約 2/3 が削減されました。 次の要因は、読み書き価格の比率が極端に低いことによるものです。DS ではキャッシュヒット 1 回あたりのコストが、キャッシュミスに対して 0.02 倍ですが、opus では 0.08 倍です。これはかなり驚異的です。というのも、openai/anthropic/gemini はいずれも 0.08〜0.1 だからです。これだけでも全体コストをさらに半分近くまで削減できます。 以上は私の実験、計測、統計に基づくものです。DS がどうやってこれらの数値を実現したのかは、私には分かりません。この点をより詳しく知っている方が説明(または推測)してくれるならありがたいです。 [link] [comments] |
922件のエージェントタスクのトレースを分析した結果、DeepSeek v4の“秘密の武器”を見つけた
Reddit r/LocalLLaMA / 2026/5/7
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 著者はエージェントタスクでDeepSeek v4(v4 flash)をベンチマークし、オープンソースとして非常に優秀な性能を確認した一方で、想像以上に安いコストだったことに驚いた。
- OpenRouterの価格を基準に見積もると、Opus 4.7に対してDeepSeek v4 flashは約3%の費用になるはずだったが、実測ではタスクあたり約0.66%まで下がっていた。
- 長いエージェント実行では両モデルともタスクあたりのトークン数がほぼ同程度(約962K〜966K)だったため、コスト差の主因はトークン量ではない。
- 主な「秘密の武器」は、DeepSeek v4 flashのキャッシュヒット率が大きく高いこと(97% vs 87%)と、キャッシュの読み書き価格比が有利なこと(0.02 vs 0.08)で、実効コストが大幅に抑えられる点にあった。
- 分析はopenclaw上でPI型のエージェントループを長時間回し、モデル提供にはOpenRouterを用いて実施された。




