クジラは再び浮上した。
中国のAIスタートアップであるDeepSeekは、High-Flyer Capital Managementの量的分析部門が生んだ分派にあたるが、2025年1月に、米国の独自開発の大手に匹敵するオープンソースのR1モデルをリリースしたことで、世界的にほぼ一夜のうちにセンセーションを巻き起こした。
それ以降、AIにおいては画期的な時期が続いており、DeepSeekはそのモデルや、その他のV3シリーズに対していくつかの アップデートを行ってきたものの、国際的なAIおよびビジネスのコミュニティは、R1の瞬間の後に続く展開を、息をのんで待っていた。
そして今、それが届いた。昨夜のDeepSeek-V4のリリースだ。これは、商業的に扱いやすいオープンソースのMITライセンスで無料提供される、1.6兆パラメータのMixture-of-Experts(MoE)モデルであり、世界で最も先進的なクローズドソースのシステムの性能に迫り、さらに一部のベンチマークでは上回る。しかも、アプリケーション・プログラミング・インターフェース(API)経由のコストは約1/6だ。
このリリースは——V3のローンチから484日後に、DeepSeek AI研究者のDeli ChenがXで「愛の結晶(labor of love)」だと説明した——「第2のDeepSeekモーメント」として称賛されている。
Chenが投稿で述べたとおり、「AGIは誰のものでもないわけではない。みんなのもの(AGI belongs to everyone)」だ。現在それは、AIコード共有コミュニティのHugging Faceで、またDeepSeekのAPI経由で利用できる。
フロンティア級AIが、より低い価格帯へ押し出される
DeepSeek-V4のリリースが最も直ちに与える影響は、経済面だ。修正された価格表では、DeepSeekは新しいProモデルを限りなくゼロに近い価格で出しているわけではないものの、トップの米国フロンティアモデルよりも、はるかに低いコスト帯に高性能モデルへのアクセスを押し込んでいる。
DeepSeek-V4-ProはAPI経由で価格設定されており、キャッシュミス時の入力1,000,000トークンあたり1.74米ドル、出力トークン1,000,000トークンあたり3.48米ドルとなっている。
これにより、単純に「入力100万・出力100万」の比較では5.22ドルだ。キャッシュされた入力なら、入力価格はトークン100万あたり0.145ドルまで下がり、同じブレンド比較は3.625ドルになる。
これは、OpenAIやAnthropicが現在提示しているプレミアム価格よりも劇的に安い。GPT-5.5は入力100万トークンあたり5.00ドル、出力100万トークンあたり30.00ドルで、同じ単純比較で合計35.00ドルとなる。
Claude Opus 4.7は、入力が5.00ドル、出力が25.00ドルで、合計30.00ドルだ。
モデル | 入力 | 出力 | 合計コスト | 出典 |
Grok 4.1 Fast | $0.20 | $0.50 | $0.70 | |
MiniMax M2.7 | $0.30 | $1.20 | $1.50 | |
Gemini 3 Flash | $0.50 | $3.00 | $3.50 | |
Kimi-K2.5 | $0.60 | $3.00 | $3.60 | |
MiMo-V2-Pro(≤256K) | $1.00 | $3.00 | $4.00 | |
GLM-5 | $1.00 | $3.20 | $4.20 | |
GLM-5-Turbo | $1.20 | $4.00 | $5.20 | |
DeepSeek-V4-Pro | $1.74 | $3.48 | $5.22 | |
GLM-5.1 | $1.40 | $4.40 | $5.80 | |
Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 | |
Qwen3-Max | $1.20 | $6.00 | $7.20 | |
Gemini 3 Pro | $2.00 | $12.00 | $14.00 | |
GPT-5.2 | $1.75 | $14.00 | $15.75 | |
GPT-5.4 | $2.50 | $15.00 | $17.50 | |
Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 | |
Claude Opus 4.7 | $5.00 | $25.00 | $30.00 | |
GPT-5.5 | $5.00 | $30.00 | $35.00 | |
GPT-5.4 Pro | $30.00 | $180.00 | $210.00 |
標準のキャッシュミス価格では、DeepSeek-V4-ProはGPT-5.5の約7分の1のコストで、Claude Opus 4.7の約6分の1(1/6)のコストとなっている。
キャッシュされた入力では差はさらに広がる。DeepSeek-V4-ProはGPT-5.5の約10分の1、そしてClaude Opus 4.7の約8分の1で済む。
さらに極端な「ほぼゼロに近い」話は、ProモデルではなくDeepSeek-V4-Flashに当てはまる。Flashは、キャッシュミス時の入力100万トークンあたり0.14ドル、出力100万トークンあたり0.28ドルで、合計0.42ドルだ。
キャッシュ入力なら$0.308まで下がる。この場合、DeepSeekのより安いモデルは、単純な「入力+出力」比較でGPT-5.5とClaude Opus 4.7より98%以上安い。あるいはコストはほぼ1/100だ——ただし性能は大きく落ち込む。
DeepSeekは、高度なモデルの経済性を、はるかに低い価格帯へ圧縮している。これにより、開発者や企業は、プレミアムなクローズドモデルに関する費用対効果の計算を見直す必要に迫られる。
大規模な推論(inference)負荷を運用している企業にとっては、この価格差が「自動化する価値があるかどうか」を左右し得る。GPT-5.5やClaude Opus 4.7では高すぎて見えたタスクが、DeepSeek-V4-Proでは経済的に実行可能になり、さらにDeepSeek-V4-Flashならなおさら可能になる。今回のリリースは知能を無料にするわけではないが、プレミアム提供事業者が「性能だけ」で正当化しにくくなるよう、市場をより厳しいものにする。
フロンティアをベンチマークする:DeepSeek-V4-Proは迫るが、GPT-5.5とOpus 4.7は依然として多くの共通テストでリード
DeepSeek-V4-Pro-Maxは、最新のクローズド・フロンティア型システムに対する、単純で全面的な敗北を意味するというより、主要なオープンウェイトの大きな飛躍として理解するのが最も適切です。
モデルの最も強いベンチマーク主張は、DeepSeek自身の比較表に基づいており、そこではGPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro Highと比べて示され、CodeforcesやApex Shortlistを含む複数のテストでそれらを上回るとされています。
しかし、それはOpenAIの新しいGPT-5.5、またはAnthropicの新しいClaude Opus 4.7に対する一対一の対決結果とは同じではありません。
DeepSeek-V4と最新の専用(プロプライエタリ)モデルだけに絞って見ると、全体像はより控えめになります。
この共通セットでは、GPT-5.5とClaude Opus 4.7が依然としてほとんどのカテゴリでリードしています。
DeepSeek-V4-Pro-Maxの最も良い結果はBrowseComp、すなわちエージェント型AIのWeb閲覧の実力(特に、高度にコンテナ化された情報)を測るベンチマークで、83.4%を獲得しています。これはGPT-5.5の84.4%に僅差で及ばず、一方でClaude Opus 4.7の79.3%を上回っています。
Terminal-Bench 2.0では、DeepSeekは67.9%で、Claude Opus 4.7の69.4%に近いものの、GPT-5.5の82.7%とは大きく差が開いています。
ベンチマーク | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro(表示されている場合) | Claude Opus 4.7 | これらの中での最良結果 |
GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7 |
Humanity’s Last Exam, no tools | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7 |
Humanity’s Last Exam, with tools | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro |
Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5 |
SWE-Bench Pro / SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7 |
BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro |
MCP Atlas / MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7 |
共通の学術的推論の結果は、クローズドモデルを後押ししています:GPQA Diamondでは、DeepSeek-V4-Pro-Maxが90.1%を獲得する一方で、GPT-5.5は93.6%、Claude Opus 4.7は94.2%に到達しています。
ツールなしのHumanity’s Last Examでは、DeepSeekは37.7%で、GPT-5.5(41.4%)、GPT-5.5 Pro(43.1%)、Claude Opus 4.7(46.9%)に後れを取ります。ツールを有効にするとDeepSeekは48.2%まで伸びますが、それでもGPT-5.5(52.2%)、GPT-5.5 Pro(57.2%)、Claude Opus 4.7(54.7%)に追い付けません。
エージェント型およびソフトウェア工学の結果はより混在していますが、それでもDeepSeek-V4-Pro-MaxはGPT-5.5とOpus 4.7に遅れをとっていることを示しています。
Terminal-Bench 2.0では、DeepSeekの67.9%はClaude Opus 4.7の69.4%と競るものの、GPT-5.5は82.7%で大きく上回っています。
SWE-Bench Proでは、DeepSeekの55.4%は、GPT-5.5の58.6%とClaude Opus 4.7の64.3%に劣後します。MCP Atlasでは、DeepSeekの73.6%は、GPT-5.5の75.3%とClaude Opus 4.7の79.1%にわずかに届きません。
BrowseCompが際立っています:DeepSeekの83.4%はClaude Opus 4.7の79.3%を上回り、GPT-5.5の84.4%にもほぼ匹敵しますが、GPT-5.5 Proの90.1%は依然として大きく先行しています。
結局のところ、DeepSeek-V4-Pro-Maxは、各社が公開している表のうち、企業間で直接比較できるベンチマークにおいてGPT-5.5やClaude Opus 4.7を打ち負かしたようには見えません。しかし、それでもいくつかのベンチマーク—特にBrowseComp、Terminal-Bench 2.0、MCP Atlas—では十分に接近しており、その結果として、API価格が大幅に低いことが大きな見出しになります。
実務的には、DeepSeekはすべてのランキング項目で勝つ必要はありません。もし、GPT-5.5またはClaude Opus 4.7の標準的なAPIコストの約6分の1〜7分の1程度で、多くのエンタープライズに関連するエージェントおよび推論タスクにおいてフロンティアに近い性能を提供できるなら、それだけで高度なAI導入の経済性を大きく見直させる力があります。
DeepSeek-V4-Pro-Maxは、現時点で分野における最も強力なオープンウェイトモデルであり、いくつかの実用的ベンチマークにおいてフロンティア級のクローズドシステムに非常に近い位置にあります。
GPT-5.5とClaude Opus 4.7はいまなお、同社のベンチマークチャートにおけるほとんどの直接比較でリードを維持しているものの、DeepSeek V4 Proは、劇的に安価でありながら接近しており、かつオープンに利用可能です。
DeepSeek V3.2からの大きな飛躍
このリリースの大きさを理解するには、ベースモデルの性能向上幅を見る必要があります。DeepSeek-V4-Pro-Baseは、従来世代であるDeepSeek-V3.2-Baseから大幅な進歩を示しています。World Knowledgeでは、V4-Pro-BaseがMMLU(5-shot)で90.1を達成し、V3.2の87.8と比べて改善しており、さらにMMLU-Proでは65.5から73.5への大きな跳躍がありました。
高レベル推論と検証済みの事実における改善は、さらに顕著です:SuperGPQAでは、V4-Pro-BaseがV3.2の45.0に対して53.9に到達し、FACTSのパラメトリックベンチマークでは、従来モデルの性能を2倍以上に伸ばし、27.1から62.6へと跳ね上がりました。Simple-QAの検証済みスコアも、28.3から55.2へと劇的に上昇しています。
ロングコンテキスト能力も洗練されています。LongBench-V2では、V4-Pro-Baseが51.5を獲得し、V3.2-Baseが達成した40.2を大きく上回りました。CodeおよびMathでは、V4-Pro-BaseはHumanEval(Pass@1)で76.8に到達しており、V3.2-Baseの62.8から伸びています。
これらの数値は、DeepSeekが単に推論コストの最適化を行っただけでなく、ベースアーキテクチャの知能密度を根本的に高めたことを示しています。効率性の物語はFlashバリアントでも同様に魅力的です。DeepSeek-V4-Flash-Baseは、実質的に少ないパラメータ数を用いているにもかかわらず、広範なベンチマークにおいて特にロングコンテキストのシナリオで、大きいV3.2-Baseを上回っています。
新しい情報「交通整理役」、Manifold-Constrained Hyper-Connections(mHC)
これらの価格と性能指標を提供できるDeepSeekの能力は、同日に公開された技術レポートで詳述されている、急進的なアーキテクチャ革新に根ざしています。技術レポートのタイトルは「Towards Highly Efficient Million-Token Context Intelligence」です。
V4の際立った技術的到達点は、そのネイティブな100万トークンのコンテキストウィンドウです。歴史的には、このような大規模なコンテキストを維持するには、大量のメモリ(キー値、すなわちKVキャッシュ)が必要でした。
DeepSeekはこれを、Compressed Sparse Attention(CSA)を用いて初期トークンの次元を減らし、さらにHeavily Compressed Attention(HCA)で長距離の依存関係に対するメモリフットプリントを強力に圧縮する、ハイブリッド・アテンション・アーキテクチャを導入することで解決しました。
実際には、V4-Proモデルは、1Mトークンのコンテキストで動作している場合でも、先行モデルであるDeepSeek-V3.2と比べて、必要なKVキャッシュはわずか10%で、単一トークン推論FLOPsは27%に抑えられています。
1.6兆パラメータのネットワークを安定化させるために、DeepSeekは従来型の残差接続を超えて進みました。同社の研究者は、モデルの表現力を維持しつつ、層をまたいだ信号伝播を強化するために、Manifold-Constrained Hyper-Connections(mHC)を取り入れました。
mHC により、モデルが学習中に不安定になったり「壊れたり」するリスクなく、AIがより幅広い情報の流れを扱えるようになります(そのため、より複雑なことを学習できます)。まるで都市に10車線の高速道路を与えるようなものですが、完璧なAI交通管制を追加して、誰も絶対にブレーキを踏まないようにするイメージです。
これは Muon オプティマイザと組み合わせられており、32T 超の多様で高品質なトークンによる事前学習の間に、より速い収束と高い学習安定性をチームが達成できるようになりました。
この事前学習データは、ハッチのような自己生成コンテンツを除去するために精錬され、モデルの崩壊(collapse)リスクを抑えつつ、独自の学術的価値を優先しました。モデルの1.6Tパラメータは、Mixture-of-Experts(MoE)設計を採用しており、1トークンあたり有効化されるのは49Bパラメータのみです。これにより計算要件もさらに引き下げられます。
Mixture-of-Experts(MoE)を一つのものとして機能させる学習
DeepSeek-V4 は単に学習されたのではなく、独自の二段階パラダイムによって「育成(cultivated)」されました。
まず、独立したエキスパートの育成(Independent Expert Cultivation) によって、ドメイン固有のエキスパートを、GRPO(Group Relative Policy Optimization)アルゴリズムを用いた Supervised Fine-Tuning(SFT)と Reinforcement Learning(RL)で学習しました。これにより、各エキスパートが、数学的推論やコードベース解析のような専門スキルを習得できました。
次に、統合モデルの統合(Unified Model Consolidation) により、これらの異なる熟練度を on-policy distillation によって単一モデルへ統合しました。統合モデルは生徒として振る舞い、教師モデルに対する reverse KL 損失を最適化するよう学習します。この蒸留プロセスにより、モデルは各エキスパートの専門的な能力を保持したまま、全体として一体的に動作できることが保証されます。
モデルの推論能力はさらに、「努力(effort)」が段階的に増える3つのモード に分割されています。
「Non-think(非思考)」モード は、日常的なタスクに対して高速かつ直感的な応答を提供します。
「Think High」 は、複雑な問題解決のための意識的な論理分析を提供します。
最後に、「Think Max」 はモデルの推論の限界を押し広げ、複雑な推論やエージェント的タスクにおいてフロンティアモデルとのギャップを埋めます。この柔軟性により、ユーザーは計算努力をタスクの難易度に合わせられ、コスト効率もさらに高まります。
ローカルの中国 Huawei Ascend NPU で Nvidia GPU の締め付けを打ち破る
モデルの重みは主役ですが、同時にリリースされたソフトウェアスタックこそ、将来の「主権AI(Sovereign AI)」にとってはおそらくさらに重要です。
アナリスト Rui Ma は、リリースからの単一文を最も重要だと強調しました。DeepSeek は、きめ細かな Expert Parallelism(EP)方式を、Huawei AscendNPU(ニューラルプロセッシングユニット)で検証した、という内容です。
非 Nvidia GPU プラットフォームで 1.50x 〜 1.73x の速度向上を達成したことで、DeepSeek は、西側の GPU サプライチェーンや輸出規制に対しても強靭な、高性能AIの展開手順(ブループリント)を提示しました。
ただし、DeepSeek は DeepSeek V4 の学習において、Huawei NPU に加えて、公式にライセンスされた合法的な Nvidia GPU を使用したと依然として主張している点は重要です。
DeepSeek はまた、DeepGEMM ライブラリの一部として、MegaMoE のメガカーネルをオープンソース化しています。CUDA ベースのこの実装は、RL ロールアウトや高速なエージェント提供のようなレイテンシー重視のタスクで、最大 1.96x の速度向上をもたらします。
この動きにより、開発者は既存のハードウェア上でこれらの巨大なモデルを極めて高い効率で動かせるようになり、DeepSeek がオープンソースAIインフラの主要な推進役であることをさらに強固にします。
技術レポートでは、これらの最適化が、すべての公式サービスで標準の 1M コンテキストを支えるために重要であると強調しています。
ライセンシングとローカル展開
DeepSeek-V4 は、業界で最も許容的な枠組みである MIT ライセンスの下でリリースされます。これにより、開発者は商用目的でロイヤリティなしに重みを使用、複製、改変、配布できます。これは、他社が好む「制限された(restricted)」オープンウェイトライセンスとは大きく対照的です。
ローカル展開について DeepSeek は、サンプリングパラメータを temperature = 1.0、top_p = 1.0 に設定することを推奨しています。「Think Max」推論モードを利用する場合は、モデルの内部推論チェーンを途中で切り詰めてしまわないよう、コンテキストウィンドウを少なくとも 384K トークンに設定することをチームは提案しています。
リリースには、OpenAI 互換形式でメッセージをエンコードし、推論コンテンツを含むモデルの出力を解析する方法を示す Python スクリプト付きの専用エンコーディングフォルダが含まれています。
また、DeepSeek-V4 は Claude Code、OpenClaw、OpenCode などの主要な AI エージェントとシームレスに統合されています。このネイティブ統合は、主要クラウド事業者の独自エコシステムに対するオープンソースの代替となる、開発者ツールの土台(ベッドロック)としての役割を裏付けています。
コミュニティの反応と今後の展開
コミュニティの反応は、驚きと検証(バリデーション)に満ちたものでした。Hugging Face は公式に「クジラ(whale)」の復帰を歓迎し、「費用対効果の高い 1M コンテキスト長の時代が到来した」と述べています。
業界の専門家は、「第二の DeepSeek の瞬間」によって、分野全体の開発の軌道が実質的にリセットされ、OpenAI や Anthropic のようなクローズドソース提供者に対し、上乗せ価格を正当化する強い圧力がかかったと指摘しました。
AI 評価企業 Vals AI は、DeepSeek-V4 がいまや「私たちの Vibe Code Benchmark における #1 のオープンウェイトモデルで、差が大きくて近づけない」と述べています。
DeepSeek は、古いアーキテクチャを素早く引退させています。企業は、レガシーの deepseek-chat と deepseek-reasoner のエンドポイントは 2026 年 7 月 24 日に完全に廃止されると発表しました。現在のすべてのトラフィックは V4-Flash アーキテクチャへルーティングし直されており、ミリオントークン標準への完全な移行を示しています。
DeepSeek-V4 は単なる新しいモデルではありません。現状維持への挑戦です。アーキテクチャの革新が、むき出しの計算最大主義の代わりになり得ることを証明したことで、DeepSeek は、これまでよりはるかに低いコストで、AI知能の最高水準を世界の開発者コミュニティに手の届くものにしました。これは、ワシントンD.C.の立法者や指導者が中国の研究所が米国の専有的大手企業から「蒸留(distilling)」してオープンソースモデルを訓練することへの懸念を表明し、さらに、そのようなオープンソースまたは脱獄された専有モデルが武器の作成やテロの実行に使われるのではという恐れがある時代であっても、地球全体に利益をもたらし得ます。
真実は、これらすべてが潜在的なリスクであるとしても――検索やインターネットそのもののように、情報アクセスを広げる過去の技術でそうだったように――得られる利益のほうがはるかに大きいように見えます。そして、フロンティアAIモデルをオープンに保とうとする DeepSeek の取り組みは、潜在的なAIユーザー全体にとって、特にできるだけ低いコストで最先端を導入したいと考える企業にとって、利益になります。




