DeepSeek V4のアーキテクチャに関する要点と議論

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この投稿は、DeepSeek V4がV3からどのように進化したかについて、報告されているベンチマーク以上にアーキテクチャ面の設計が重要だとして強調しています。
DeepSeek V4では、CSA（圧縮スパース）とHCA（強圧縮）を組み合わせたハイブリッド注意（hybrid attention）を採用し、圧縮したトークンストリームへの注意とスライディングウィンドウ注意を併用しながら、各層は注意ベースのまま維持される点が特徴です。
標準的な残差接続は、manifold-constrained hyper-connections（mHC）に置き換えられ、ブロック間での情報の流れ方を再設計してトレーニングの安定性課題に対処していると述べられています。
著者は、FP4 QATをフロンティア規模で学習している点も挙げ、また多くの人がV4をローカルで動かすのは難しいため、V4-Flashやコミュニティによる蒸留がローカル推論の普及の鍵になりそうだとしています。
投稿の目的は読者からのフィードバックや議論を引き出すことであり、これらのアーキテクチャ方針について意見を求めています。

午前中はV4の技術レポートを読み込んでいました。ベンチマークは十分に注目を集めていますが、アーキテクチャのほうも掘り下げる価値があると思います。

フィードバックや議論を促すための、簡単な所感を以下にまとめます。

TL;DR
- DeepSeek V3と比べて大きな新規性
- ハイブリッド注意機構：CSA（圧縮スパース）＋HCA（大幅圧縮）であり、Qwen3.5+、MambaなどのようにMLAを純粋に使う、あるいはSSM／Gated DeltaNetを組み込む、という方向ではありません。
- 通常の残差の代わりに、マニフォールド制約付きハイパー接続（元のmHC論文）
- フロンティア規模でのFP4 QAT学習

ハイブリッド注意機構
CSA＋HCAのアプローチが興味深いのは、二次（quadratic）の注意層を一次（linear）に置き換えるのではないからです。代わりに、圧縮された（より粗い粒度の）トークンストリームに対して注意を行い、さらにスライディングウィンドウ注意のトークンと連結します。つまり、すべての層が注意ベースのままであり、既存のハイブリッド・アーキテクチャと比べて新しい方向性です。

残差ストリーム
標準的な残差接続は、トランスフォーマーにおけるほぼ手つかずの部分でした。V4では、マニフォールド制約付きハイパー接続によって、ブロック間で情報が流れる方法を再設計しています。私の知る限り、DeepSeekだけが学習の安定性に関する課題を解決しており、それをプロダクションで提供している（間違っていたら訂正してほしいです）ようです。

現実的に言えば、ここにいるほとんど誰もDeepSeek V4をローカルで動かせないでしょう。そうするには、直近で提供終了になったM3 Ultra 512GBのクラスタが少なくとも必要ですし、あるいはさらに高価なNVIDIA環境が必要になります。
V4-Flashやコミュニティによる蒸留が、このリリースをローカルでの推論に対してより面白く、より利用しやすくするポイントになる可能性が高いです。

皆さんがどう考えているのか知りたいです。

submitted by /u/benja0x40
[link] [comments]