DeepSeek V4がリリース:1.6Tパラメータ、1Mコンテキスト、そして驚異的な低価格

Dev.to / 2026/4/30

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • DeepSeekは、遅延を経てDeepSeek V4をリリースし、2つのバリアント—DeepSeek-V4-Pro(総パラメータ1.6T、アクティブ49B)とDeepSeek-V4-Flash(総パラメータ284B、アクティブ13B)—はいずれもネイティブで100万トークンのコンテキストに対応しました。
  • 長文推論の効率化を狙い、Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせたHybrid Attention Architectureを追加しています。
  • CSAはKVキャッシュを4トークンごとに1つへ圧縮し、スパース注意により各クエリトークンが少数の圧縮KVエントリだけに注目できるようにします。
  • HCAは128トークンごとに1エントリへ圧縮しつつ密な注意を維持することで、特に100万トークン級のワークロードで性能と効率を高めます。
  • DeepSeek-V3.2との比較として、DeepSeek-V4-Proは1トークンあたりの推論計算を27%に抑え、KVキャッシュのVRAM使用量を10%まで削減したと報告されており、長文アプリのコスト障壁を下げる可能性があります。

多くの期待と3度の延期を経て、「国内AIの輝く星」と称されるDeepSeekが、ついに最新バージョンをリリースしました:DeepSeek V4

業界の他の面々が新しいモデルを立ち上げ、ベンチマークを誇っている間も、DeepSeekは自分たちのペースを崩さずに進めてきました。そして先週、DeepSeek V4がひっそりと公開されました。

DeepSeek V4シリーズには、DeepSeek-V4-Pro(総パラメータ1.6T、アクティブ49B)と、DeepSeek-V4-Flash(総パラメータ284B、アクティブ13B)が含まれます。どちらのモデルもネイティブで、100万トークンの超ロングコンテキストウィンドウをサポートします。深いアーキテクチャの改良により、長文推論の効率において大きなブレークスルーを実現しています。

ハイブリッド・アテンション・アーキテクチャ:長いコンテキストのボトルネックを解決

超ロングコンテキストを処理する際、従来のアテンション機構は、多くの場合、計算量が二次的に増大するというジレンマに直面します。DeepSeek V4では、この処理を2種類の異なる圧縮戦略で最適化するために、ハイブリッド・アテンション・アーキテクチャを導入しています。

このハイブリッドなアーキテクチャは、Compressed Sparse Attention(CSA)Heavily Compressed Attention(HCA)で構成されます。CSAは、4トークンごとにKey-Value Cache(KV Cache)を1つのエントリに圧縮し、スパース・アテンション戦略を用います。これにより、各クエリトークンが参照する圧縮済みのKVエントリを少数に抑えることができます。HCAはより攻めたアプローチで、128トークンごとに1つのエントリに圧縮しつつ、密なアテンションを維持します。

この設計は、100万トークン級のシナリオで非常に優れた性能を発揮します。従来のDeepSeek-V3.2と比べて、DeepSeek-V4-Proはトークンあたりの推論計算が27%まで低下し、KVキャッシュのVRAM使用量もわずか10%にまで削減されました。限られたハードウェア資源しかない開発者にとって、この効率向上は超ロングテキスト用途の参入障壁を大幅に下げます。

アーキテクチャ最適化:mHCリンクとMuonオプティマイザ

アテンション機構のほかにも、DeepSeek V4は基盤となる安定性と収束速度をアップグレードしています。

このモデルでは、従来の残差接続のアップグレードであるmanifold-constrained Hyper-Connection(mHC)技術を導入します。残差マッピングを特定の多様体に制約することで、mHCは多層ネットワーク全体における信号伝播の安定性を高め、パラメータ規模が拡大してもモデルの表現力を確保します。

最適化アルゴリズムに関しては、DeepSeek V4はMuonオプティマイザを採用しています。多くのモジュールで一般的に使われるAdamWを置き換え、直交化にはNewton-Schulz反復を利用します。Muonはより高速な収束と、強い学習安定性を提供します。アテンションスコアの数値爆発を防ぐため、チームは従来のQK-Clip手法を捨て、RMSNormをクエリおよびキー入力に直接適用しました。

インフラ支援:TileLangとFP4学習

効率的なモデルには強力なインフラが必要です。DeepSeek V4は、カーネル開発のためのドメイン固有言語(DSL)であるTileLangを使用しています。断片化した数百のオペレーションを結合カーネルに置き換えることで、開発の柔軟性を高めながら運用効率を確保します。

VRAMの課題に対処するため、DeepSeek V4は後期段階でFP4量子化を意識した学習(quantization-aware training)を導入しました。MoE(Mixture of Experts)重みと、CSAインデクサのQKパスの両方がFP4量子化で実装されています。特に、FP4からFP8への非量子化(dequantization)プロセスはロスレスであるため、既存のFP8学習フレームワークを再利用しつつ、デプロイ時の速度をほぼ2倍にできます。

学習データとパフォーマンス

DeepSeek V4は、32Tトークンを超えるデータで事前学習されました。ポストトレーニングでは、2段階のパラダイムを採用しました。まず数学、コード、創作ライティングなどの分野で、専門家モデルを独立して育成し、その後、Online Policy Distillation(OPD)によってこれらの専門的能力を統一モデルへ統合します。

ベンチマークでは、DeepSeek-V4-Pro-Maxが極めて競争力の高い成績を示しています。知識ベースのSimpleQAテストでは、多くの主要なオープンソースモデルを上回りました。MRCR 1Mのロングコンテキスト検索タスクでも、モデルは100万トークン級のレベルに達しても高いリコールの安定性を維持しました。

プログラミングおよびエージェントのタスクでも、DeepSeek V4は同様に光っています。LiveCodeBenchSWE Verifiedのようなランキングでは、Proバージョンは今やトップクラスのクローズドソースモデルと互角に渡り合える能力を備えています。

柔軟な推論モード

DeepSeek V4には、異なるシナリオに合わせて3つの推論モードがあります:

  1. Non-think Mode:速くて直感的な応答を提供します。日常会話や低リスクの意思決定に最適です。
  2. Think High Mode:論理的な分析を可能にします。わずかに遅い一方で、精度が高く、複雑な問題の解決に適しています。
  3. Think Max Mode:特定のシステムプロンプトを注入し、思考トークン長を延長することで、このモードはモデルの推論限界を押し広げ、境界ケースにも対応できるようにします。

DeepSeek-V4-Proがパフォーマンスの上限に焦点を当て(プログラミング、数学、STEMで非常に競争力が高い)、一方でDeepSeek-V4-Flashは速度とコストに焦点を当てています。アクティブなパラメータが少ないにもかかわらず、Flash版の推論能力は多くのシナリオでPro版にかなり近づいており、特に日常的なタスクや基本的なエージェント用途において効果を発揮します。

詳細な料金

私は、DeepSeek V4が最もコスト効率の高い大規模モデルだと主張します。あなたは賛成ですか?

DeepSeek-V4-Pro

  • 入力(キャッシュヒット): 1人民元 / 100万トークン
  • 返却形式: {"translated": "翻訳されたHTML"}
  • 入力(キャッシュミス時): 12 RMB / 100万トークン
  • 出力: 24 RMB / 100万トークン

DeepSeek-V4-Flash

  • 入力(キャッシュヒット時): 0.2 RMB / 100万トークン
  • 入力(キャッシュミス時): 1 RMB / 100万トークン
  • 出力: 2 RMB / 100万トークン

公式データによると、この料金は競合他社の1/20〜1/40です。極端に低いキャッシュヒット価格により、長いコンテキストの背景資料を頻繁に呼び出す開発者にとって、莫大なコスト削減を実現します。

使用方法とAPIガイド

ユーザーは現在、複数のチャネルを通じてDeepSeek V4を体験できます。

Webとモバイル

chat.deepseek.com の公式チャットプラットフォームにアクセスするか、公式のDeepSeekアプリを使用してください。このプラットフォームにはExpertモードとInstantモードが統合されており、最大100万語までの全文読み取りに対応しています。多数のディープレポート、またはプロジェクト全体の背景ドキュメントについて、精密な分析を行うことが現在可能になっています。

API統合

開発者にとって、APIこそが本番です。DeepSeek APIはOpenAIおよびAnthropicの形式と互換です。設定を少し変更するだけで、既存のアプリをDeepSeek V4へ素早く移行できます。

推論モードの例(Python)

DeepSeek V4は、パラメータによって思考の深さを制御できます。始める前に、Python環境が準備できていることを確認してください。準備できていない場合は、ServBayでワンクリックでPython環境をインストールできます。

以下は、Deep Thinkingモードを有効にしてdeepseek-v4-proへアクセスするコード例です:

import os
from openai import OpenAI

# まずOpenAI SDKをインストール:pip3 install openai
client = OpenAI(
    api_key=os.environ.get('DEEPSEEK_API_KEY'),
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a professional technical document analyst."},
        {"role": "user", "content": "Please analyze the core architectural design of this project."},
    ],
    stream=False,
    # Deep Thinkingモードのための設定
    reasoning_effort="high", 
    extra_body={"thinking": {"type": "enabled"}}
)

print(response.choices[0].message.content)
統合のヒント
  • 全文の読み取り:1Mのコンテキストウィンドウを活用して、書籍全体、複数の業界レポート、または完全なコードベースをそのままコンテキストとして入力します。
  • パラメータの調整:API開発者の場合、temperatureを1.0、top_pを1.0に設定することを推奨します。非常に複雑なロジックに対してThink Maxモードを使用する場合は、最良の結果を得るために少なくとも384Kのコンテキストウィンドウを確保することを推奨します。

まとめ

DeepSeek V4のリリースにより、国内の大規模モデルにおけるコストパフォーマンス比の基準が引き上げられました。究極の性能を目指すPro版であれ、速度と経済性を重視するFlash版であれ、基盤となるアーキテクチャの革新によって、長文推論のボトルネックは実質的に解決されています。

深い分析、長文ドキュメントのパース、または複雑なコードロジックを扱うユーザーにとって、DeepSeek V4は間違いなく、現在市場で最もコスト効率の高い選択肢です。