午前中はV4の技術レポートを読み込んでいました。ベンチマークは十分に注目を集めていますが、アーキテクチャのほうも掘り下げる価値があると思います。
フィードバックや議論を促すための、簡単な所感を以下にまとめます。
TL;DR
- DeepSeek V3と比べて大きな新規性
- ハイブリッド注意機構:CSA(圧縮スパース)+HCA(大幅圧縮)であり、Qwen3.5+、MambaなどのようにMLAを純粋に使う、あるいはSSM/Gated DeltaNetを組み込む、という方向ではありません。
- 通常の残差の代わりに、マニフォールド制約付きハイパー接続(元のmHC論文)
- フロンティア規模でのFP4 QAT学習
ハイブリッド注意機構
CSA+HCAのアプローチが興味深いのは、二次(quadratic)の注意層を一次(linear)に置き換えるのではないからです。代わりに、圧縮された(より粗い粒度の)トークンストリームに対して注意を行い、さらにスライディングウィンドウ注意のトークンと連結します。つまり、すべての層が注意ベースのままであり、既存のハイブリッド・アーキテクチャと比べて新しい方向性です。
残差ストリーム
標準的な残差接続は、トランスフォーマーにおけるほぼ手つかずの部分でした。V4では、マニフォールド制約付きハイパー接続によって、ブロック間で情報が流れる方法を再設計しています。私の知る限り、DeepSeekだけが学習の安定性に関する課題を解決しており、それをプロダクションで提供している(間違っていたら訂正してほしいです)ようです。
現実的に言えば、ここにいるほとんど誰もDeepSeek V4をローカルで動かせないでしょう。そうするには、直近で提供終了になったM3 Ultra 512GBのクラスタが少なくとも必要ですし、あるいはさらに高価なNVIDIA環境が必要になります。
V4-Flashやコミュニティによる蒸留が、このリリースをローカルでの推論に対してより面白く、より利用しやすくするポイントになる可能性が高いです。
皆さんがどう考えているのか知りたいです。
[link] [comments]



