DeepSeek V4 Pro vs Flash:3タスク比較、100Mトークンで見る実コストと品質トレードオフ

Dev.to / 2026/5/9

💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • DeepSeekは2026年4月24日に「V4 Pro」と「V4 Flash」をリリースし、いずれもMoEでMITライセンス、コンテキストは最大1Mトークンだと説明している。
  • 公式価格ベースではV4 ProとV4 Flashのリスト価格差は約12倍(入力・出力とも)だが、V4 Proのローンチ・プロモ期間中は差が約3.1倍程度まで縮む。
  • キャッシュヒット時の価格設計によりFlashは実効入力コストを極小化できる可能性がある一方、エージェントのような動的セッションではキャッシュヒット率が60〜75%に留まりやすく、その前提が重要になる。
  • 単一ファイルのコード生成のような「上限が明確な」作業ではFlashがProにかなり近い品質で済むため、作業を分類して約30%だけProにルーティングすることで費用を最大80%削減できる。
  • 逆にマルチファイルの推論や長いエージェント・ループではFlashが不足し、ルーティングなしだと数日〜1週間程度で品質差が顕在化する可能性がある。

TL;DR

「V4 ProとV4 Flashは、リスト価格だと12倍離れています。上限付きの、単一ファイルのコーディング作業に限れば、品質差は十分に小さく、ほとんどのチームはモデルを見分けられません。」一方で、複数ファイルにまたがる推論や、長いエージェントループではFlashでは不十分になります。重要な戦略的問いは、あなたの作業のうちどの30%がProを必要とするのかを特定することです。タスクベースのルーティングによって、品質低下が目立たないままDeepSeekの費用を80%削減できます。ルーティング機能がない場合、パフォーマンスの差は1週間以内にはっきり現れます。

見出しの数字(そして少し嘘をつく理由)

DeepSeekは2026年4月24日に、V4 ProとV4 Flashをそれぞれリリースしました。どちらもMoEモデルで、MITライセンスの下で、コンテキストウィンドウは1Mトークンです。V4 Proは合計1.6Tパラメータで、リクエストあたりのアクティブは49Bです。V4 Flashは合計284B/アクティブ13Bです。アーキテクチャ上の違いは意味があります。Proはフォワードパスあたり、アクティブ能力が約3.8倍提供されますが、その一方で価格差はさらに大きくなっています。

2026年5月時点の公式価格:

モデル 入力(キャッシュミス) 入力(キャッシュヒット) 出力
V4 Pro(通常) $1.74/M $0.0145/M $3.48/M
V4 Pro(ローンチ・プロモ、2026-05-31まで) $0.435/M $0.003625/M $0.87/M
V4 Flash $0.14/M $0.0028/M $0.28/M

出典:DeepSeek APIの価格(検証日:2026-05-09)。

通常価格では、Flashは入力で12.4倍安く、出力でも12.4倍安いです。Proのプロモが有効だと、その差は約3.1倍に縮まります。5月31日以降は再び12倍に戻ります。

キャッシュヒット行から分かるのは、微妙なダイナミクスです。Flashのキャッシュヒット時の入力価格$0.0028/Mは、Flash自身のキャッシュミス率に対して98%の割引を表しています。高いキャッシュヒット率を維持できれば、Flashの実効的な入力コストはゼロに近づきます。ただし「維持」には重みがあります。Claude Codeのパターンに沿うエージェントセッションは、安定したRAGワークロードに紐づく95%ベンチマークではなく、通常60〜75%程度のキャッシュヒット率に留まります。

タスク1:単一ファイルのコード生成(Flashがきれいに勝つ)

最初のカテゴリは、上限付きのコード生成—関数の作成、エンドポイントの足場(スキャフォールド)の組み立て、テストファイルの生成、設定の変換など—を含みます。これらはV4 Flashが主に狙う代表的なユースケースです。

上限付きプロンプトは、チームで日常的に使われるものとしては概ね次のような内容です:関数を書く、単一のエンドポイントを足場化する、テストをスタブする、設定ブロックを変換する。Flashは、ブラインド比較ではProと見分けがつかない出力を生成します。コミュニティの分析パターン(CoderseraのV4 Flash詳細解説、Geeky Gadgetsのコーディングテスト、Hugging Faceのモデルカードを含む)では、次のように一貫した結論が示されています。Proは集計されたコーディングベンチマークで先行しますが、その差はわずかであり、個々のワンショット課題ではモデルが互換に見えることさえ多いです。

これはベンチマークの断言というより編集上の一般化です。公表されているモデルカードはHumanEval型の合格率を記載し、コミュニティの書き起こしはワンショットのゲーム生成、シミュレーション用プロンプト、構造化された推論タスクを扱います。ただし、CRUDの足場化やフレームワークのフォーム生成のようなもの—公開テストの傾向が拡張できるカテゴリではあるものの、厳密な数字は個別の評価が必要になるカテゴリ—について、具体的にベンチマークされたわけではありません。

このカテゴリの意思決定では、コストの非対称性が支配的です。典型的な足場化プロンプト(例:「これら5つのデータベースモデル向けにCRUDサービスを生成し、テストも付けて」)は、おおよそ入力8Kトークン・出力4Kトークンを必要とします。Flashは(システムプロンプトで70%キャッシュヒットを仮定して)生成あたり約$0.0023かかります。Proはプロモ価格で$0.0073、通常価格で$0.0292です。スプリントで足場化を1000回回すと、コストはそれぞれ$2.30、$7.30、$29.20になります。

足場化の処理をProにルーティングすることは、そのタスクが必要としない能力に対してプレミアムを払うことになります。

タスク2:長いファイルのリファクタリング(Proが勝つが、細かい注意書きを読め)

2つ目のカテゴリ—単一の500〜1,500行のファイルにまたがるリファクタリング—では、差が広がっていきます。どちらのモデルもコンテキストウィンドウを収められます。性能を分けるのは一貫性です。

開発者のテストレポートでは、次のパターンが一貫して観測されています:複数の命名規約、エラーハンドリングのパターン、書き換え全体での一貫した型シグネチャを必要とするファイルをリファクタリングする場合、Proは一貫性を完全に維持します。Flashはドリフトします。リファクタリング後のファイルの800行目あたりで、変数の命名が不整合になったり、クラス途中でエラーハンドリングのスタイルを切り替えたり、戻り値の型が微妙に別のものとして導入されたりします。

注目すべき失敗モードもあります。Flashは、共有状態や順序に関する前提、エラー伝播の慣習といった暗黙の不変条件(インバリアント)を含む長いファイルをリファクタリングするとき、明白な変換箇所は拾う一方で、微妙な箇所を見落とします。その結果の出力は、文法的には誤りではありません。ですが、元コードが必要としていた不変条件を黙って落としてしまい、意味論的に成立してしまうのです。Proは保守的に近づきます。アクティブ能力が大きいことで、リライトの間も黙っていた制約を保ちやすいからでもあります。

ここでコストの力学は逆転します。Flashのドリフトが30分の手直しを発生させると、節約分が消えます。30Kトークンのリファクタリングで12倍の価格差は、概算で$0.42対$0.035(50セント)です。しかし、その後のクリーンアップにかかる30分の費用は、50セントをはるかに上回ります。

一貫性が求められる長いファイルのリファクタリングでは、フル価格であってもProが正しい選択です。数学的な分析では、Flashは本当に独立した変換パターンの場合を除いて不利です。

タスク3:複数ファイルのエージェントループ(Proが勝つ。Flashはそもそも競合にならない)

3つ目のカテゴリでは、品質の差が能力の差へと変わります。

エージェントループ—ファイルを読み、テストを実行し、出力を確認し、コードを編集して、もう一度再実行する—は、モデルがツールの結果を正しく解釈し、次のアクションを適切に選ぶことに依存します。Proは、10〜20回のツール呼び出しシーケンスを、ほぼゼロの誤ルーティングでこなします。Flashは、約6〜8回のツール呼び出し後からエラーを増幅させます。

具体的な失敗パターンは次の通りです。Flashはテスト失敗メッセージを誤解し、本当はファイルBにバグがあるのに、ファイルAにあると判断します。ファイルAを「直した」つもりで編集し、再びテストを実行して、今度はその悪い編集によって別の失敗が起きることを確認し、さらにそれを直そうとします。ツール呼び出し12回目までに、モデルは直前の2回分のツール呼び出しで自分が引き起こしたダメージを修復することになります。Proにはこうしたことが起きません。ツール結果が仮説とズレた場合、Proは後戻りして、誤った理屈を押し通さずに、元の失敗を読み直します。

これは限界的な品質ギャップではありません。Flashは、このワークロードに対して明確に間違ったツーリングです。Claude Code、Aider、Cursorのエージェントモード、OpenCode CLIのようなエージェント型コーディング環境をFlashで支えると、最初は安く感じます。ですが、最初の難しいバグに遭遇し、そのエージェントが自分で穴に突っ込むようにして掘り続け、トークン$0.50相当を燃やしていくのを見れば、はっきりします。

エージェントのワークロードでは、Proは妥協できません。もしくは、同等の価格でClaude Sonnet 4.6へルーティングするという選択肢も現実的です。

キャッシュヒット率の罠

「DeepSeekはXより90%安い」といった比較のほぼすべては、実際のワークロードでは崩れてしまうキャッシュヒット率を前提にしています。この計算を理解することは、マーケティング上の主張に対して予算を組む前に必要です。

キャッシュヒット率がうまく維持できるのは次の場合です:

  • 安定したナレッジベースに対するRAGの検索
  • システムプロンプトが固定された長時間のチャットセッション
  • システムプロンプトが一定のままのドキュメント分析パイプライン

一方、キャッシュヒット率が崩れるのは次の場合です:

  • コーディングエージェントループ(あらゆるツール結果がキャッシュを無効化する)
  • 話題が切り替わるマルチターン会話
  • ツールベースで、変数の大きい出力を生成するシステム

Flashでのエージェント型コーディング作業では、典型的な実効キャッシュヒット率は60〜75%になります。これを価格に当てはめると:

キャッシュヒット率 実効入力コスト(Mあたり)
95% $0.0095
75% $0.0378
60% $0.0584
0% $0.14

同じ月間100Mトークンの作業負荷で、マーケティング向けの80%キャッシュ前提だと$10.52ですが、現実的なエージェントのレートでは実際には$14〜18かかります。それでもなお経済的です。Opus 4.6より50倍安いままです。しかし見出しの数字はそうではありません。

節約の見積もりを伝える前に、DeepSeekダッシュボードから実際のキャッシュヒット率を取り出してください。

判断基準

1つの原則に要約すると、「タスクが1つのファイル内に収まり、モデル出力が1ラウンドで済むならFlashを使う。ファイルをまたぐ、または2回以上のツール呼び出しが必要になるならProを使う」です。

12倍の価格差、Proのプロモ割引、キャッシュヒットの数式はいずれも重要です。ただし二次的です。まず最初に問うべきは、作業が境界づけられているかどうか(bounded-ness)です。Flashは境界づけられた作業に強く、境界がない(unbounded)作業では苦手です。Proはその逆で、境界づけられた作業では無駄になりがちですが、境界がない作業には必要になります。

ほとんどのプロダクションシステムでは、到来するリクエストを境界づけられているかどうかで分類して適切に振り分けるルータが有益です。これをLiteLLMや自作プロキシで実装するチームもあります。あるいは、単一のエンドポイントの背後に両方のモデルを公開し、設定変更によってモデルを切り替えられる集約ゲートウェイを使うチームもいます。いずれにせよ、ルーティングロジックがモデル選択より優先されます—ルーティングが存在すれば、適切なモデルを選ぶことはコード変更ではなく設定の問題になります。

DeepSeekファミリーのより広い価格文脈については、DeepSeek APIの価格内訳をご覧ください。Claude CodeのワークフローでのFlashと、AnthropicやOpenAIの代替との比較については、Claude CodeのコストテストにおけるV4をご参照ください。2026年のより広いモデル選定の状況については、Kimi 2.6とClaude Opus 4.6の比較が、コスト曲線の上側で同様の問いに答えます。

Proプロモ判断にとっての意味

75%のPro割引は2026年5月31日まで適用されます。その後、V4 Proは、入力が$1.74/M、出力が$3.48/Mに戻ります。判断が必要なのは3週間だけです:

  • 主に境界づけられたタスクを実行している場合:Flashを維持し、プロモは無視します。プロモ価格でのProは、Flashに向いた作業のためのFlashコストを3倍上回ります。
  • プロモ価格でProを使っているエージェント負荷を実行している場合:6月1日から4倍のコスト増を見込んでください。受け入れるか、境界づけられたタスクをFlashに戻すルータを構築してください。
  • 最初にProを検討している場合:プロモは実際の割引を提供しますが、セールス戦略でもあります—それで終わります。プロモ価格に対して定常状態の経済性をモデル化しないでください。

正直な解釈はこうです:Flashは実際に経済的であり、経済的であり続けます。一方Proは、対応力のある選択肢であるものの、それ相応にコストがかかります。12倍のギャップを、懸念ではなく特徴に保つことが重要です—それは「どの作業が本当により大きいモデルを必要とするのか」を考えるきっかけになります。ルーティング基盤は一度作り、ProとFlashの価格差は、予算のストレスではなく負荷分散へと変わります。

参考文献

  • DeepSeek V4公式価格:api-docs.deepseek.com/quick_start/pricing(2026-05-09アクセス)
  • V4プレビューのリリースノート:api-docs.deepseek.com/news/news260424
  • V4 Flashモデルカード:huggingface.co/deepseek-ai/DeepSeek-V4-Flash
  • V4 Proモデルカード:huggingface.co/deepseek-ai/DeepSeek-V4-Pro
  • フィールドテストレポート:RunpodのV4を実運用で使ってみた結果
  • コーディングテストの解説:Geeky Gadgets V4 Flash vs Pro
  • コスト分析の手法:Codersera V4 Flashディープダイブ

もともとは ofox.ai/blog に掲載されました。