新たなオープンモデルがOpenAIのo1に対抗し、無料で使用や改変が可能です。
新しい点: DeepSeekはDeepSeek-R1をリリースしました。この大規模言語モデルは出力を生成する前に長い推論の連鎖(chain of reasoning)を実行します。コードと重みはライセンスにより商用および個人利用、R1出力を使った新たなモデルの訓練を含めて自由に利用可能です。論文では、明示的なプロンプトなしでチェーン・オブ・ソート(CoT)を実装した高性能モデルのトレーニングの詳細が示されています。(なおDeepSeek-R1-lite-previewは11月により少ないパラメータと異なるベースモデルで公開されました。)
ミクスチャ・オブ・エキスパーツ(MoE)とは:MoEアーキテクチャは、異なる入力に基づくパラメータのサブセットを使って処理します。各MoEレイヤーは複数のニューラルネットワーク(エキスパーツ)からなり、入力に応じてどのエキスパートを使うかを選ぶゲーティングモジュールがあります。これにより各エキスパートは専門分野の例に特化し、全パラメータを全入力に使用する従来のモデルと比べて省エネルギーかつ高速です。
仕組み:DeepSeek-R1はDeepSeek-V3-Baseのファインチューニング版で、4段階でチェーン・オブ・ソート(CoT)能力を強化しています。全体で6710億パラメータのMoEトランスフォーマーで、そのうち370億パラメータが随時動作し、128,000トークンの入力コンテキストを処理可能です。DeepSeekのAPI経由の利用料金は、入力トークンあたり100万トークンで$0.55(キャッシュ済み入力は$0.14)、出力トークンあたり100万トークンで$2.19です。(比較として、o1は入力100万トークンあたり$15、キャッシュ済み$7.50、出力100万トークンあたり$60です。)
- チームは数千件の長文CoT例の合成データセットでDeepSeek-V3-Baseをファインチューニングしました。例としては、Few-shotスタイルで長いCoTを例示してプロンプトを与え、自己評価と再検証を行いながら詳細な回答を生成し、その後は人間のアノテーターが精査しました。
- グループ相対方策最適化という強化学習アルゴリズムを用いて難題解決能力を向上させました。数学問題に対しては正確な形式の最終解答を返すことに対する報酬(正確度報酬)や、タグ内に内部CoTステップを示すことへの報酬(形式報酬)を設定しました。
- さらに、進行中のR1バージョンを使って約60万件の推論プロンプト応答を生成し、正答のみを保持。約20万件の非推論例(翻訳ペアなど)も混合しました。これらはDeepSeek-V3-baseによる生成か訓練データセット由来です。
- 最終的に強化学習によるファインチューニングを行い、推論問題の正確度をさらに高めるとともに、全体的な有用性・無害性の向上も図りました。
その他のモデル:DeepSeek研究者は7つの関連モデルも公開しました。
- DeepSeek-R1-ZeroはDeepSeek-R1に似ていますが、完全に強化学習でファインチューニングされました。問題解決戦略をインセンティブ付与のみで習得できましたが、言語の混在や読みにくい出力も多くなりました。
- また、パラメータ数が15億、70億、80億、140億、320億、700億の6つのデンスモデルも公開されており、そのうち4つはQwenベース、2つはLlamaベースです。
結果:DeepSeekのテストによれば、DeepSeek-R1はo1と対等に競い、11ベンチマーク中5つで勝りました。他の新モデルも競争力がありました。
- DeepSeek-R1はAIME 2024、MATH-500、SWE-Bench Verifiedでo1を上回り、Codeforces、GPQA Diamond、MMLUでは競争力がありました。頻繁に更新されるコーディング問題を含むLiveCodeBenchでは65.9%の問題を正解し、o1の63.4%を上回りました。
- 明示的プロンプトなしでチェーン・オブ・ソートを実装しない2大モデルも上回りました。Anthropic Claude 3.5 Sonnetには21ベンチ中19勝、OpenAI GPT-4oには21ベンチ中20勝しました。
- DeepSeek-R1-Distill-Qwen-32BはAIME 2024やGPQA Diamondなど全ベンチでOpenAI-o1-miniを上回り、DeepSeek-R1-Distill-Llama-70BはCodeforcesを除く全ベンチでo1-miniを上回りました。
意義:昨年末にOpenAIのo1が明示的プロンプトなしでCoTを実装する推論モデルのトレンドを開始しましたが、o1やその後継o3は推論過程を隠します。一方でDeepSeek-R1は推論過程すべてを公開し、ユーザーが答えに至る過程を閲覧可能です。DeepSeekの蒸留実験では、こうしたモデルが小型の生徒モデルの教師として強力であり、その推論スキルの利点を伝えて生徒モデルの精度を向上させることが示されています。
私たちの見解:DeepSeekは急速にオープンモデルの強力な開発者として台頭しています。これらのモデルは高性能であるだけでなく、ライセンスにより出力を蒸留に利用可能なため、あらゆる規模の言語モデル(およびマルチモーダルモデル)の技術進歩を促進する可能性があります。
