DeepSeek V4のアーキテクチャに関する要点と議論

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この投稿は、DeepSeek V4がV3からどのように進化したかについて、報告されているベンチマーク以上にアーキテクチャ面の設計が重要だとして強調しています。
  • DeepSeek V4では、CSA(圧縮スパース)とHCA(強圧縮)を組み合わせたハイブリッド注意(hybrid attention)を採用し、圧縮したトークンストリームへの注意とスライディングウィンドウ注意を併用しながら、各層は注意ベースのまま維持される点が特徴です。
  • 標準的な残差接続は、manifold-constrained hyper-connections(mHC)に置き換えられ、ブロック間での情報の流れ方を再設計してトレーニングの安定性課題に対処していると述べられています。
  • 著者は、FP4 QATをフロンティア規模で学習している点も挙げ、また多くの人がV4をローカルで動かすのは難しいため、V4-Flashやコミュニティによる蒸留がローカル推論の普及の鍵になりそうだとしています。
  • 投稿の目的は読者からのフィードバックや議論を引き出すことであり、これらのアーキテクチャ方針について意見を求めています。

午前中はV4の技術レポートを読み込んでいました。ベンチマークは十分に注目を集めていますが、アーキテクチャのほうも掘り下げる価値があると思います。

フィードバックや議論を促すための、簡単な所感を以下にまとめます。

TL;DR
- DeepSeek V3と比べて大きな新規性
- ハイブリッド注意機構:CSA(圧縮スパース)+HCA(大幅圧縮)であり、Qwen3.5+、MambaなどのようにMLAを純粋に使う、あるいはSSM/Gated DeltaNetを組み込む、という方向ではありません。
- 通常の残差の代わりに、マニフォールド制約付きハイパー接続(元のmHC論文
- フロンティア規模でのFP4 QAT学習

ハイブリッド注意機構
CSA+HCAのアプローチが興味深いのは、二次(quadratic)の注意層を一次(linear)に置き換えるのではないからです。代わりに、圧縮された(より粗い粒度の)トークンストリームに対して注意を行い、さらにスライディングウィンドウ注意のトークンと連結します。つまり、すべての層が注意ベースのままであり、既存のハイブリッド・アーキテクチャと比べて新しい方向性です。

残差ストリーム
標準的な残差接続は、トランスフォーマーにおけるほぼ手つかずの部分でした。V4では、マニフォールド制約付きハイパー接続によって、ブロック間で情報が流れる方法を再設計しています。私の知る限り、DeepSeekだけが学習の安定性に関する課題を解決しており、それをプロダクションで提供している(間違っていたら訂正してほしいです)ようです。

現実的に言えば、ここにいるほとんど誰もDeepSeek V4をローカルで動かせないでしょう。そうするには、直近で提供終了になったM3 Ultra 512GBのクラスタが少なくとも必要ですし、あるいはさらに高価なNVIDIA環境が必要になります。
V4-Flashやコミュニティによる蒸留が、このリリースをローカルでの推論に対してより面白く、より利用しやすくするポイントになる可能性が高いです。

皆さんがどう考えているのか知りたいです。

submitted by /u/benja0x40
[link] [comments]