| FoodTruck Bench で DeepSeek V4 Pro をテストしました。当社の 30日間エージェント型ベンチマークでは、モデルが 34 のツール(ロケーション、価格、在庫、スタッフ、天気、イベント)を使ってフードトラックを運営し、永続メモリと日次のリフレクションを行います。 当社のベンチマークでフロンティア層に到達した最初の中国モデルです。アウトカムでは Grok 4.3 Latest と同率で、GPT-5.2 の中央値からは 3% 以内、総合順位は #4(Opus 4.6、GPT-5.2、Grok 4.3 の後ろ)です。 面白いのはタイミングです。2月中旬に GPT-5.2 をテストしました。DeepSeek V4 Pro は 10週間後にその数値に到達しています。このベンチマークにおける中国—米国のフロンティア層のギャップは、以前は1年のように感じられました。今は、だいたい10週間です。 価格差はさらに鮮明です。GPT-5.2 は入力 $1.75/M、出力 $14/M です。DeepSeek V4 Pro は入力 $0.435/M、出力 $0.87/Mで、さらにキャッシュ読み出しが割引されています。— 同じエージェント型ワークロードで約17倍安価。これは今日のプロモ価格ですが、DeepSeek の実績では、プロモが下限(基準)になります。 コスト効率(API 利用額あたりの純資産)では、DeepSeek V4 Pro はリーダーボード総合 #2 です。首位は Gemma 4 31B のみで、プレミアム層のあらゆるモデルより上です。 特に Grok 4.3 Latest と比べると、中央値は実質同率で同じ価格ですが、DeepSeek が一貫性で勝っています。借金なし、フードロスは約 6分の1、1日あたり提供食は30%多く、アウトカムの分布は2.4倍引き締まっています。Grok は DeepSeek のピークに追いつきます。DeepSeek は毎回、自身のピークに到達します。 Opus 4.6 のピーク実行は、依然として DeepSeek より高いです。Gemma は依然として安価です。とはいえ、それ以外では、中国の価格帯で見れば本当にフロンティア層の競合です。 更新 — Xiaomi MiMo v2.5 Pro も、実行セットが完了しました: 5/5 が生存、+1,019% の中央値 ROI、$2.41/run での中央値純資産は $22,388。リーダーボードでは #6 に着地(Gemma 4 31B と Sonnet 4.6 の間)。アウトカムと一貫性では DeepSeek よりやや劣ります(分散が大きい—最悪実行は $9K、最高は $29K)。ただし、この価格帯での中国モデルとしては本物の結果です。 これで、当社のトップ6に中国モデルが2つ入りました。どちらも $3.5/run 未満です。このベンチマークを2月に開始したとき、この2つのティアは米国の研究所の外には存在していませんでした。 DeepSeek と Xiaomi MiMo のチームにお祝いを。 詳細な書き込み: https://foodtruckbench.com/blog/deepseek-v4-pro [link] [comments] |
DeepSeek V4 Proは「FoodTruck Bench」でGPT-5.2に匹敵—10週間後にほぼ同等、しかも約17倍安価
Reddit r/LocalLLaMA / 2026/5/5
📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- DeepSeek V4 Proは、34のツールを使い、永続メモリと日次のリフレクションを備えたエージェント型30日ベンチマーク「FoodTruck Bench」でGPT-5.2に匹敵したと報じられています。
- この記事では、このベンチマークにおける中米の性能ギャップが、以前の約1年から現在は約10週間程度まで縮まっている点が強調されています。
- DeepSeek V4 ProはGPT-5.2に比べて大幅に低コストで、入力0.435/M・出力0.87/M(さらにキャッシュ読み出し割引あり)とされ、同じエージェント作業量あたり約17倍の安さに相当します。
- API費用あたりの「純資産」(net worth per dollar)で測るコスト効率ではDeepSeek V4 Proが全体で2位とされ、上位はGemma 4 31Bのみで、プレミアム系モデルより上回るとしています。
- 追記としてXiaomi MiMo v2.5 Proも好成績(5/5生存、中央値ROIは約1,019%)で6位に入り、低い1回あたりコストで中国勢がフロンティア級に競り合ってきていることを補強しています。




