922件のエージェントタスクのトレースを分析した結果、DeepSeek v4の“秘密の武器”を見つけた

Reddit r/LocalLLaMA / 2026/5/7

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

著者はエージェントタスクでDeepSeek v4（v4 flash）をベンチマークし、オープンソースとして非常に優秀な性能を確認した一方で、想像以上に安いコストだったことに驚いた。
OpenRouterの価格を基準に見積もると、Opus 4.7に対してDeepSeek v4 flashは約3%の費用になるはずだったが、実測ではタスクあたり約0.66%まで下がっていた。
長いエージェント実行では両モデルともタスクあたりのトークン数がほぼ同程度（約962K〜966K）だったため、コスト差の主因はトークン量ではない。
主な「秘密の武器」は、DeepSeek v4 flashのキャッシュヒット率が大きく高いこと（97% vs 87%）と、キャッシュの読み書き価格比が有利なこと（0.02 vs 0.08）で、実効コストが大幅に抑えられる点にあった。
分析はopenclaw上でPI型のエージェントループを長時間回し、モデル提供にはOpenRouterを用いて実施された。

I analyzed 922 agentic task trace and found the secret weapon of DeepSeek v4

最近、エージェント的タスクにおける deepseek v4 のベンチマークを行いました。性能面では、予想通り、オープンソースとしては最高クラスのモデルの一つです。私を本当に驚かせたのはコストです。安いのは分かっていますが、「そんなふうに安くなるのは理屈に合わないのでは？」と思えるほど安いんです。

コスト見積もり

例として v4 flash を取り上げましょう。セール対象ではないため（つまり、実際の提供側コストをより反映できます）。

openrouter上での deepseek v4 flash の価格

openrouter上での opus 4.7 の価格

OpenRouterの価格を見ると、deepseek v4 flash の価格は opus 4.7 の価格の約 0.03 倍です。（長いエージェント的タスクでは、入力トークンが支配的なコストになるため、入力トークン価格だけを見ています。）つまり、v4 flash が opus 4.7 と同程度の量のトークンをタスクで使うなら、実際のコストは opus を使う場合と比べて 0.03 倍あたりになるはずです。

実データ

そこでベンチマークを回しました。openclaw 上で長いエージェント的タスクを実行し（エージェントループに PI を使用）、モデル提供は openrouter としました。実際のコストデータは、私の感覚を覆しました：

	タスクあたりの平均コスト	タスクあたりの平均トークン数	タスクあたりの平均ツール呼び出し数
Opus 4.7	$1.52	966.3K	12.8
DeepSeek v4 Flash	$0.01	961.8K	14.8

どういうわけか deepseek v4 flash は、タスクあたりのトークン使用量とツール呼び出し数がほぼ同じなのに、opus 4.7 と比べてタスクあたりのコストが約 0.0066 倍でした。見積もった価格の 1/5 しかありません。これはどうしてあり得るのでしょうか？？

秘密の武器

生データを掘り下げ、より詳細な統計を集めたところ、ようやく理由が分かりました。秘密はキャッシュヒット率とキャッシュ読み取り（リード）の価格です。

	キャッシュヒット率	キャッシュ読み書き価格の比率
Opus 4.7	87%	0.08
DeepSeek v4 Flash	97%	0.02

このケースで主な要因はキャッシュヒット率です。DeepSeek はなんとか 97% のキャッシュヒット率を達成したのです！！！

この数字がどれほど重要か分からない場合に備えて言うと、このキャッシュヒット率と読み書き価格の比率の条件では、キャッシュヒット率が 1% 高いだけで全体のコストが約 20% 下がります。

DS は opus よりもキャッシュ率が 10% 高い。これだけで全コストの約 2/3 が削減されました。

次の要因は、読み書き価格の比率が極端に低いことによるものです。DS ではキャッシュヒット 1 回あたりのコストが、キャッシュミスに対して 0.02 倍ですが、opus では 0.08 倍です。これはかなり驚異的です。というのも、openai/anthropic/gemini はいずれも 0.08〜0.1 だからです。これだけでも全体コストをさらに半分近くまで削減できます。

以上は私の実験、計測、統計に基づくものです。DS がどうやってこれらの数値を実現したのかは、私には分かりません。この点をより詳しく知っている方が説明（または推測）してくれるならありがたいです。

submitted by /u/zylskysniper
[link] [comments]

生成的UIでインタラクティブエージェントを作る

The Batch

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

トヨタ「世界最高水準」VLM外販、ウーブン豊田大輔氏「AIが街を理解」

日経XTECH

シーメンス、AIを製造現場へ本格実装自律制御をハノーバーメッセで披露

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

922件のエージェントタスクのトレースを分析した結果、DeepSeek v4の“秘密の武器”を見つけた

要点

コスト見積もり

実データ

秘密の武器