DeepSeek-V4：エージェントが実際に使える「100万トークン」コンテキスト

Hugging Face Blog / 2026/4/24

💬 オピニオンSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

この記事では、DeepSeek-V4を、実用的なエージェントのワークフローに適した「100万トークン」のコンテキストウィンドウをサポートするモデルとして紹介しています。
非常に長いコンテキストが、理論上の能力に留まらず実アプリケーションで使えることを強調しています。
本記事は2026年4月24日に公開され、詳細はGitHub上の更新情報へのリンクで確認できるようになっています。
書き手の焦点は、単一のやり取りの中でエージェントが扱える情報量を大幅に増やしつつ、実用性を保つ点にあります。

記事に戻る

DeepSeek-V4: エージェントが実際に使える100万トークンのコンテキスト

2026年4月24日公開

GitHubで更新

ben burtenshaw

burtenshaw

フォロー

DeepSeekは本日V4をリリースしました。Hubには2つのMoEチェックポイントがあります。DeepSeek-V4-Proは合計1.6Tのパラメータでアクティブが49B、DeepSeek-V4-Flashは合計284Bでアクティブが13Bです。どちらもコンテキストウィンドウは1Mトークンです。ベンチマークの数値は競争力がありますが、SOTAではありません。ですが、それはどうでもいいことです。真の革新は、DeepSeek v4が効率的に長いコンテキスト長をサポートするよう設計されている点であり、そのためエージェント型タスクにおける有力な候補の1つになっています。

長時間稼働するエージェント型ワークロードに注目しています。今日、最先端のオープンモデルをエージェントとして動かすと、予測可能な形で破綻します。モデルは停止します。あなたは再プロンプトします。トレースがコンテキスト予算を突き抜けるか、KVキャッシュがGPUを埋め尽くすか、あるいはツール呼び出しの往復が長いタスクの途中で劣化します。V4は、これらの既知の失敗を修正するために作られています。そして、コミュニティがそれに続けるための道筋を示します。

この投稿では3つのことを扱います。長コンテキスト推論を安価にするために、アーキテクチャが何を異なって行うのか、そこに積み重わるエージェント向けの事後学習（ポストトレーニング）の意思決定、そしてそれらの変更を理解するのに役立つ論文からのいくつかの示唆です。

エージェントにおけるKVキャッシュ問題

1Mのコンテキストウィンドウは単なる容量であって、性能そのものではありません。その深さでの各フォワードパスのコストに左右されます。長いツール利用の軌跡（SWE-benchタスク、多段のブラウズセッション、数百のコマンドを含むターミナルセッション）を実行するエージェントでは、ツールの結果がすべてコンテキストに追記され、その後のすべてのトークンが、それ以前に来たすべてに対する完全な注意（attention）の計算コストを支払うことになります。

重要なのは2つの数値です。単一トークン推論FLOPsとKVキャッシュのサイズです。どちらもシーケンス長に応じて増加します。1Mトークンのとき、DeepSeek-V4-ProはDeepSeek-V3.2と比べて単一トークン推論FLOPsが27%で済むため、同じハードウェア上でより高速に動作します。また、KVキャッシュメモリも10%しか使いません。V4-Flashではさらにこれらの数値を下げており、FLOPsは10%、KVキャッシュは7%です。

確立されたアーキテクチャ、たとえば8ヘッドのグループ化クエリ注意（grouped query attention）を、通常のbfloat16形式で保存する場合と比べると、DeepSeek v4ではKVキャッシュサイズが概ね2%になります。これにより、非常に大きなコンテキストを扱うための導入がずっと容易になります。

図1：ベンチマーク比較（左）、トークンあたりのFLOPsとシーケンス長に対する累積KVキャッシュ（右）。

ハイブリッド注意：CSAとHCA

効率向上は、attentionを2つの仕組みに分割し、それらを層（レイヤー）間で交互に適用することで得られます。

圧縮スパース注意（Compressed Sparse Attention：CSA）は、ソフトマックスのゲート付きプーリングに学習済みの位置バイアスを用いて、シーケンス次元に沿ってKVエントリを4倍圧縮します。稲妻型のインデクサ（FP4、ReLUスコアのマルチヘッド・ドット積）が、各クエリに対して上位kの圧縮ブロックを選びます。これはV3.2のDeepSeek Sparse Attentionからスパース選択という発想を継承していますが、元のシーケンスよりもさらに4倍短いブロック上で実行します。そのため、インデクサの探索空間もそれに伴って縮小します。

図3：CSA。コンプレッサは4トークンごとに1つの圧縮KVエントリに畳み込みます。稲妻型インデクサが各クエリに対して上位kの圧縮ブロックを選択します。スライディングウィンドウ分岐が、直近の圧縮されていないトークンを処理します。

強く圧縮された注意（Heavily Compressed Attention：HCA）は、KVエントリを128倍圧縮し、スパース選択を削除します。各クエリは、すべての圧縮ブロックに対して密に（densely）注意します。圧縮後のシーケンスは十分短いため、密なattentionは安価です。

図4：HCA。より重いコンプレッサ（4倍ではなく128倍）に続いて、圧縮ストリームに対して密なattentionを行います。直近の情報のためのスライディングウィンドウ分岐は同じです。

レイヤーはCSAとHCAを交互に使います。異なるレイヤーは異なるattentionパターンを担い、1つの仕組みをすべてのレイヤーに強制すると、計算資源（キャパシティ）を無駄にします。V4-Proの61層スタックでは、層0〜1はHCA、層2〜60はCSAとHCAが交互になり、末尾のMTPブロックはスライディングウィンドウのみを実行します。

両方の経路で、ほとんどのKVエントリにはFP8ストレージを使用し、RoPE次元のみBF16を使用します。CSA内部の稲妻型インデクサはFP4で動作します。これらのストレージ選択は、圧縮率と相まって、KVキャッシュが2%という数字につながります。

図2：全体アーキテクチャ。attentionレイヤーはCSAとHCAを交互に行います。フィードフォワード層はDeepSeekMoEを使用します。残差接続は、マニフォールド制約付きハイパーコネクション（mHC）に置き換えられています。

What changes for agents

効率的なロングコンテキスト注意はエージェントのワークフローに必要ですが、それだけでは不十分です。この論文では、エージェントの利用ケースを直接ターゲットにする3つのポストトレーニングとインフラストラクチャの選択肢を述べています。

ツール呼び出しをまたいだ推論（インタリーブド・シンキング）

V3.2では、ツール結果のラウンド間で推論トレースを保持していましたが、新しいユーザーメッセージが届くたびにそれらを破棄していました。単一のユーザートーンを扱うエージェントにとっては、これは問題ありませんでした。エージェント的なマルチターンのワークフロー、つまりエージェントがすでに複数のツール呼び出しを連鎖させた後に、ユーザーがフォローアップを送るようなケースでは、モデルは蓄積された推論を失い、状態を再構築する必要がありました。

V4は、会話にツール呼び出しが含まれる場合、ユーザーメッセージの境界をまたいで推論内容を保持します。モデルは、ユーザートーンをまたいだ場合も含め、すべてのラウンドにわたって完全な推論履歴を保持します。これにより、ロングホライズンのエージェント課題において、首尾一貫した累積的な一連の思考が可能になります。ツールなしの会話利用では、以前の挙動が維持されます。すなわち、各ターンで推論をフラッシュし、コンテキストを簡潔に保ちます。

図7：ツール使用時（上）ではすべてのターンにわたって推論が保持されます。ツールなし（下）では、新しいユーザーメッセージが届くたびに推論が破棄されます。

専用トークンを用いたツール呼び出しスキーマ

V4では、|DSML|という特別なトークンと、XMLベースのツール呼び出し形式が導入されます。XML形式は、モデルがネストされた引用コンテンツを出力する際に起こりがちな失敗モードである「JSONを文字列として埋め込む」ツール呼び出しよりも、エスケープ失敗を減らします。

このスキーマは、文字列パラメータ（string="true"として渡され、そのままの値が使用されるもの）と、構造化パラメータ（string="false"として渡され、JSONとして渡されるもの）を分離します。これにより、JSONのツール呼び出し形式が繰り返し直面する、数値やブール値に関する一種のパースエラーが取り除かれます。

DSec：RLロールアウト用に作られたサンドボックス

エージェントの振る舞いは、実際のツール環境に対してRL（強化学習）で学習されました。その目的のために構築されたサンドボックスのインフラストラクチャについて、この論文では説明しています。DeepSeek Elastic Compute（DSec）はRustのプラットフォームであり、1つのPython SDKの背後で4つの実行基盤を提供します。関数呼び出し、コンテナ、マイクロVM（Firecracker）、そしてフルVM（QEMU）です。単一のクラスターで、数十万もの並列サンドボックスを実行できます。

エージェントの学習において重要になるDSecの3つの機能は、(1) レイヤード3FSストレージによる高速なイメージ読み込み（そのためRLロールアウトはコンテナ起動待ちにならない）、(2) 中断された学習ステップをツール呼び出しを再実行せずに再開できるプリエンプト耐性のある軌跡リプレイ、(3) 基盤間で一様なAPIを提供すること（そのため、関数呼び出しかフルVMかを、書き換えなしで学習ハーネスがターゲットにできる）です。これらのインフラ上の判断が、エージェントのベンチマークスコアを支えています。

Agent benchmark results

知識と推論の数値は競争力がありますが、トップには届いていません。エージェントの数値こそが、V4-Pro-Maxが他を引き離している点です。

表6の「エージェント」セクションにおける具体的な数値:

Terminal Bench 2.0: V4-Pro-Maxは67.9で、GLM-5.1（63.5）およびK2.6（66.7）を上回りますが、GPT-5.4-xHigh（75.1）およびGemini-3.1-Pro（68.5）には届きません。
SWE Verified: 80.6達成。Opus-4.6-Max（80.8）およびGemini-3.1-Pro（80.6）との差は1点未満です。
MCPAtlas Public: 73.6。Opus-4.6-Max（73.8）に次ぐ2位です。
Toolathlon: 51.8。K2.6（50.0）、GLM-5.1（40.7）、およびGemini-3.1-Pro（48.8）を上回ります。

論文内の社内R&Dコーディングベンチマークでは、PyTorch、CUDA、Rust、C++にまたがる30の厳選タスクで、V4-Pro-Maxは合格率67%を達成。Sonnet 4.5は47%、Opus 4.5は70%です。V4-Proを日々の主要ドライバーとして使っているDeepSeek開発者85人を対象にした調査では、52%が「現在の主要コーディングモデルの代わりにする準備ができている」と回答し、39%は「はい寄り」と答えました。

長文コンテキストのリトリーバル数値は図9に示されています。MRCR 8-needleの精度は256Kトークンまで0.82を上回り、1Mでは0.59に維持されています。

図9: MRCR 8-needleのリトリーバル。V4-Pro-Maxは256Kまで0.82を上回り、1Mでは0.59を維持します。

モデルの使い方

Hub上には4つのチェックポイントがあります。指示（instruct）モデルは、MoEのエキスパート重みにはFP4を、その他すべてにはFP8を使用します。ベースモデルは全ての箇所でFP8です。

deepseek-ai/DeepSeek-V4-Pro（1.6T / 49Bアクティブ、instruct）
deepseek-ai/DeepSeek-V4-Flash（284B / 13Bアクティブ、instruct）
deepseek-ai/DeepSeek-V4-Pro-Base（1.6T / 49Bアクティブ、base）
deepseek-ai/DeepSeek-V4-Flash-Base（284B / 13Bアクティブ、base）

どちらのinstructモデルも、3つの推論モードに対応しています。Non-think（高速、思考の連鎖なし）、Think High（<think>ブロック内で明示的な推論を行う）、Think Max（専用のシステムプロンプトにより最大限の推論努力を行う）です。Think Maxでは、コンテキストウィンドウが少なくとも384Kトークン必要です。すべてのモードで推奨されるサンプリングパラメータはtemperature=1.0, top_p=1.0です。

SWE Verified、MCPAtlas、そして社内R&DベンチマークにおけるV4-Proの数値は、エージェントタスクにおいてフロンティアのクローズドモデルと同等の水準にあります。未解決の論点は、コミュニティのツールハーネスが|DSML|スキーマにどのように適応するのか、また、インタリーブされた思考（interleaved thinking）の改善が、領域外のエージェント・フレームワークへも転移するかどうかです。

本ブログ記事の図は、DeepSeek_V4.pdfにある技術レポートから引用しています。