DeepSeekが推論力を強化:DeepSeek-R1、OpenAI o1の手頃な対抗馬

The Batch / 2026/5/8

📰 ニュースIndustry & Market MovesModels & Research

要点

  • DeepSeekは、出力の前に長い推論ステップを実行することを狙った新しいオープン型大規模言語モデル「DeepSeek-R1」を公開し、OpenAIのo1に対するより低コストな代替として位置づけています。
  • DeepSeek-R1はコードと重みがライセンス付きで提供され、商用利用や改変に加えて、R1の出力を使って新しいモデルを学習することも可能です。
  • 同梱の論文や関連資料は、明示的なプロンプトを必要とせずに連想(チェイン・オブ・ソート)型の推論を実装する仕組みを解説しており、学習アプローチを比較的透明に示しています。
  • 記事では基盤となる「混合専門家(MoE)」アーキテクチャも説明されており、ゲーティングが入力を専門の“エキスパート”へ振り分けることで効率を高め、消費エネルギーを抑え、推論を高速化する点が強調されています。
  • DeepSeek-R1はDeepSeek-V3-Baseを複数段階で微調整した派生モデルとしており、推論性能や全体のパフォーマンスを高めるために段階的に調整されたと述べています。

新しいオープンモデルがOpenAIのo1に並ぶ存在として登場し、無料で利用したり改変したりできます。

何が新しいのか: DeepSeekが DeepSeek-R1 をリリースしました。これは、出力を生成する前に長い推論のラインを実行する大規模言語モデルです。コードと重みは 商用および個人利用を目的に、自由に 利用できます。これには、R1の出力を使ってR1出力に学習する新しいモデルの訓練も含まれます。さらに 論文 では、明示的なプロンプトなしで「思考の連鎖(chain of thought)」を実装する高性能モデルの学習について、間近で見られる内容が提供されています。(DeepSeek-R1-lite-preview は、パラメータ数が少なく、別のベースモデルを使う形で、11月に登場しました。)

専門家混合(MoE)の基礎: MoEアーキテクチャでは、異なる入力を処理するために、モデルのパラメータの異なるサブセットを用います。各MoE層には、複数のニューラルネットワーク、つまり「専門家(experts)」の集まりがあり、それらの前に、入力に基づいてどの(どれらの)専門家を使うかを選択することを学習するゲーティングモジュールが置かれます。こうすることで、異なる専門家が、異なる種類の例に対して特化することを学習できます。なお、どの出力を生成する場合でも全てのパラメータが使われるわけではないため、ネットワークは、すべてのパラメータを全ての入力の処理に使う類似サイズのモデルよりも消費エネルギーが少なく、動作も速くなります。

仕組み: DeepSeek-R1は DeepSeek-V3-Base を4段階にわたって微調整(fine-tune)し、 思考の連鎖(chain of thought:CoT) を処理する能力を高めたバージョンです。これは、計6710億(total)のパラメータを持つ混合専門家(mixture-of-experts)トランスフォーマーで、そのうち37億が、任意の時点でアクティブになります。また入力コンテキストとして12万8000トークンを処理します。DeepSeekの API 経由でモデルにアクセスする場合、入力トークン100万あたり0.55ドル(キャッシュ済み入力の場合は0.14ドル)で、出力トークン100万あたり2.19ドルです。(参考:o1は入力トークン100万あたり15ドル、キャッシュ済み入力は7.50ドル、出力トークン100万あたり60ドルです。)

  • チームは、複数の手法を用いて生成した数千件の長文形式CoT例からなる合成データセットで、DeepSeek-V3-Baseを微調整しました。例えば、彼らは長いCoTを例として、DeepSeek-V3-Baseをfew-shot形式でプロンプトし、そのモデルに、CoTステップを評価しつつ二重チェックしながら、詳細な回答を生成するよう指示しました。その上で、人手によるアノテーターを雇い、結果を洗練(refine)し処理しました。
  • 彼らは group relative policy optimization という強化学習アルゴリズムを使い、難しい問題を解く能力を高めました。例えば、数学の問題では、最終回答を特定の形式で返した場合に報酬を与えるルールベースのシステム(精度報酬)を作り、さらに内部のCoTステップを<think>タグ内に示した場合にも報酬を与える(形式報酬)ようにしました。
  • 追加の微調整のために、彼らは作業中のR1のバージョンを使って、推論プロンプトへの応答を約60万件生成し、正しい応答のみを保持しました。さらに別の20万件の推論をしない例(言語翻訳のペアなど)を混ぜました。それらはDeepSeek-V3-baseで生成したもの、あるいはその学習データセットから得たもののいずれかです。
  • 彼らは最終ラウンドの強化学習によってモデルを微調整しました。このステップにより、推論の問題における精度をさらに高めることを促し、一般に、有用性および無害性も改善しました。

他のモデル: DeepSeekの研究者は、関連する7つのモデルも同時にリリースしました。

  • DeepSeek-R1-Zero はDeepSeek-R1と似ていますが、強化学習のみを用いて完全に微調整されています。研究者らは、DeepSeek-R1-Zeroは、そうすることへのインセンティブを与えられただけで、問題解決の戦略を開発できたと述べています。ただし、言語を混ぜたり、読めない出力を生成したりする可能性がより高かったとのことです。
  • DeepSeekはまた、6つの高密度モデル(パラメータ数が15億、70億、80億、140億、320億、700億)もリリースしました。うち4つはQwenのバージョンに基づき、2つはLlamaのバージョンに基づいています。

結果: DeepSeekのテストでは、DeepSeek-R1はo1と互角の勝負をし、テストした11のベンチマークのうち5つでそのモデルを上回りました。ほかの新しいモデルの一部も、競争力のある性能を示しました。

  • DeepSeek-R1はAIME 2024、MATH-500、SWE-Bench Verifiedでo1を上回り、一方でCodeforces、GPQA Diamond、MMLUでは競争力のある性能を発揮しました。例えば LiveCodeBench (頻繁に更新されるコーディング問題を含む)では、正しく解けたのは問題の65.9%で、o1は63.4%でした。
  • また、推論を明示的なプロンプトなしでチェーン・オブ・ソート(思考の連鎖)を実装しない2つのトップモデルも上回りました。Anthropic Claude 3.5 Sonnetに対して21のうち19のベンチマークで優位に立ち、OpenAI GPT-4oに対しても21のうち20のベンチマークで上回りました。
  • DeepSeekのテストでは、DeepSeek-R1-Distill-Qwen-32Bは、AIME 2024やGPQA Diamondを含む、テストしたすべてのベンチマークでOpenAI-o1-miniを上回っています。一方で、DeepSeek-R1-Distill-Llama-70Bは、Codeforcesを除くすべてのテストベンチマークでo1-miniを上回りました。

重要な理由: 昨年末、OpenAIのo1が、明示的なプロンプトなしでCoT(連鎖的思考)を実装する、いわゆる推論モデルへの潮流を切り開きました。しかしo1や、まだ広く提供されていない後継のo3は、推論の手順を隠しています。対照的にDeepSeek-R1はすべてを公開しており、ユーザーはモデルが特定の答えに至るまでに取った手順を見ることができます。さらに、蒸留に関するDeepSeek自身の実験は、こうしたモデルが小型の学生モデルを訓練するための教師として非常に強力であることを示しています。加えて、彼らの推論スキルのいくつかの利点が引き継がれているようで、その結果、学生モデルの精度がより高くなるようです。

考えていること: DeepSeekは、オープンモデルの強力な構築者として急速に台頭しつつあります。これらのモデルは優れた性能を持つだけでなく、ライセンスによってその出力を蒸留のために利用できるため、あらゆる規模の言語モデル(およびマルチモーダルモデル)における最先端の水準を押し進める可能性があります。