DeepSeek V4が登場しました。これはプレスリリースでもありませんし、都合のいいベンチマークだけを集めた、入念に編集されたブログ記事でもありません。中身を隠さない58ページの研究論文です。そして、突きつけられる結論は、月20ドルのプレミアムAIサブスクリプションを払っている人にとっては居心地が悪いものです:Claudeはお金の無駄です。
これは誇張ではありません。数字は公開されており、しかも度が過ぎています。割引があるかどうかで、DeepSeek-V4はAnthropicのClaudeより最大30倍安い可能性があります。割引がないとしても、差は8〜20倍です。これは小さな違いではありません。だからこそ立ち止まって、「いったい何に対してお金を払っているのか」を問いたくなるようなレベルです。
Two Minute Papersが、動画形式での分かりやすい解説をしてくれています こちら。
ベンチマーク
もし30倍も多く払うことで、明らかに優れた製品が手に入るのなら、それにも筋は通りますが、今回は違います。数字を見てください:
最大推論努力モードでのDeepSeek-V4-ProはHLEで90.2%を達成しており、これは存在する中でも屈指の「信じてくれよ系」ベンチマークの1つです。Claude Opus 4.6-Maxは?89.1%。ApexではDeepSeekは85.9%で、Claudeの78.1%を上回ります。CodeforcesのレーティングではDeepSeekが3206で、GPT-5.4と同点でClaudeを大きく引き離しています。長文コンテキストの検索では、DeepSeekのMMRスコア92.9がClaudeの76.3を圧倒します。100万トークンでのCorpusQA精度は71.7で、53.8に対して優れています。
実世界の大半のタスクでは、有意な差はありません。いくつかの重要なカテゴリでは、DeepSeekが完全に勝っています。それでも、あなたはその費用の一部しか払わないか、もしどうにかして1兆(trillion)パラメータ全部をセルフホストできているなら、払う必要さえありません。これだけ幅広いタスク領域で、オープンモデルがクローズドのフロンティアモデルに到達した、あるいは上回ったのは初めてのことです。そしてそれは、ほとんど誰もが予想していたよりもずっと速く起きました。
無料で100万トークン
100万トークンのコンテキストウィンドウは、以前は目玉機能であり、エンタープライズ向けの価格を正当化する根拠になっていました。GoogleはGeminiでそれを丸ごと製品ローンチにしていました。2年前のことを覚えています。私はそれに対してかなり興奮していました。ところが今、DeepSeekはオープンウェイトでそれをあなたに無料で渡してくれています。密なドキュメント1,500ページ分を一気に吸い込ませてみてください。そうすれば、やってくれます。
これがなぜ可能なのかを説明しているので、エンジニアリングの理解には価値があります。トランスフォーマーの素朴な注意(attention)機構には二次計算量があり、コンテキスト長を2倍にすれば、計算量は4倍になります。これが、多くのモデルにとって長いコンテキストを破滅的に高コストにしてしまうボトルネックです。DeepSeekは、Compressed Sparse AttentionとHeavily Compressed Attentionを組み合わせたハイブリッドな注意アーキテクチャで突破しました。
本を読むことにたとえるといいでしょう。すべての単語を同時に処理することはできないので、要約します。DeepSeekはこれを3つのレベルで行います:
トークン単縮(compression):各段落を1文に要約します。本はそのまま。より速く検索できます。
大きく圧縮した注意:目次を見ます。各章に短い名前が付いていれば、全体の物語が一目で掴めます。128対1の圧縮です。
圧縮されたスパース注意:インデックスを使います。小説の中で喧嘩のシーンを探している? インデックスが上位5ページを教えてくれます。モデルは重要なところにだけ注意を向けます。
3層構造:要約、構造、インデックス。この組み合わせによって、KV-cacheのメモリ要件が約90%削減されます。情報を失わずに、100語を10の保存スペースに押し込むようなものです。ベンチマークがそれを裏付けています。MRCRでは、128Kトークン以内で検索の性能は驚くほど安定しており、100万トークンまで強さを保っています。
効率性の飛躍
従来のDeepSeek-V3.2も、すでに効率的でした。DeepSeek-V4は、それの改善というわけではありません。まったく別の次元の「効率性」です。100万トークンのコンテキストで、DeepSeek-V4-Proが必要とするのは、V3.2と比べて単一トークンのFLOPsの27%とKV-cacheの10%だけです。Flashモデルはさらに極端で、FLOPsは10%、KV-cacheは7%です。
要するに、Proモデルは同じ出力を得るために、前世代より約3分の1の計算能力で済みます。Flashはさらに約10分の1です。これは単なる漸進的な改善ではありません。大規模なAI推論を回す際のコスト計算を作り変える世代間の飛躍です。ClaudeやGPTに、重い推論ワークロードを任せているような企業なら、運用コストのほんの一部で、同等以上、場合によってはフロンティアに匹敵、または上回るような結果を、同様に(あるいは完全に)セルフホストによって達成できる可能性があります。
特に言及すべき建築上の革新が2つあります。これらは、論文を読み返してしまうようなタイプのものだからです。Manifold-Constrained Hyper-Connectionsは、通常の残差接続を、より数学的に筋の通ったものに置き換えます。つまり残差マッピングの行列は、二重確率行列(doubly stochastic matrices)の多様体(manifold)上に制約され、その結果、スペクトルノルムが1により抑えられるようにします。平たく言えば、層を深く積み上げたときに、信号が暴走したり消えたりするのを防ぎます。新しいオプティマイザであるMuonは、ほとんどのモジュールでAdamWを置き換え、より良い安定性を得つつ、より速く収束します。DeepSeekは単にスケールアップしているだけではなく、基礎を作り直しているのです。
DeepSeekが欠けているもの
DeepSeek V4に弱点がないと見せかけるのは不誠実でしょう。主に2つあります。
1つ目は単一モダリティであることです。画像も音声もありません。少なくとも現時点では、目も耳もありません。もしあなたのワークフローが重い画像解析やマルチモーダルな推論を含むなら、Claudeにはまだ優位があります。ただ、その優位が今後12か月で生き残る姿は想像しづらいです。その優位が必要なら、Qwenと組み合わせるのがいいかもしれません。
論文はまた、珍しく、そして本当に新鮮なものを認めています。学習を安定化させるために使われた2つの技術、Anticipatory RoutingとSwiGLU Clampingは効果的に機能しますが、なぜそうなるのかについて、作り手たちは完全には確信がないのです。これは、多くのAI企業が出してくる洗練された企業の“無回答”ではありません。これは、確かな不確実性を伴う、本物の研究論文です。透明性は称賛に値しますが、それはつまり、特定のエッジケースにおける挙動について未解決の問いが残っているということでもあります。
コンテキストウィンドウの性能も、限界に近づくほど低下します。モデルは忘れ、ずれ、幻覚を見ます。文章が増えるほど真実性は下がります。これはDeepSeek固有の問題ではなく普遍的なものですが、それでも知っておく価値があります。
進むべき軌道
オープンモデルとクローズドモデルの間にあるギャップは縮まっていません。むしろ縮まったのです。知識ベンチマークにおいて、DeepSeek-V4-Proはオープンモデルの新たな最先端(SOTA)を確立し、SimpleQAでそれまでのすべてのオープンソースのベースラインを、絶対値で20ポイントという大差で上回りました。推論では、フロンティアに匹敵するか上回っています。コードでは、これを達成した最初のオープンモデルであるGPT-5.4と競り合う水準です。エージェントでは、Claude Opus 4.5に迫っています。長いコンテキストでは、Gemini-3.1-Proを上回ります。
これほど速く、こんなことが起きるとは想定されていませんでした。1年前の常識は、オープンモデルは無期限にフロンティアから12〜18か月遅れる、というものでした。DeepSeek-V4は、いくつかの限られたカテゴリではおそらく3〜6か月遅れていますが、他の分野ではすでに追い越しています。既存の独占的なプレイヤーは行き詰まりつつあります。
結論
私たちは前例のないものを目撃しています。価格が限りなくゼロに近づくのに、フロンティア級の知能があるのです。1.6兆パラメータのモデル。コンテキストは100万トークン。ベンチマークのスコアは、最高のプロプライエタリ・システムに匹敵するか上回る。オープンウェイト。無料で利用でき、稼働コストは安く、自社ホスティングでも利用可能です。「課金しすぎると割に合わないほど安い」という表現は、以前は願望でした。それが説明になりつつあります。
もし、DeepSeek-V4を試さずにClaudeの料金をまだ支払っているのであれば、それは品質に対する支払いではありません。あなたが払っているのは慣性です。ブランド認知です。アメリカのデータセンターです。そして見慣れたチャット画面の安心感です。それらが無価値だと言っているわけではありませんが、価格が30倍もする価値があるとは言えません。





