DeepSeek V4、Huaweiの「Ascend 950」での実戦級ストレステスト:中国AIチップ・エコシステムの行方

Dev.to / 2026/5/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • 2026年4月24日にリリースされたDeepSeek V4(1.6TパラメータのMoE)は、トップクラスのモデルとして初めて検証済みハード一覧にHuaweiのAscend 950PRを含めました。
  • DeepSeek側はCANN Nextへの大規模な移植を行い、CUDAの主要オペレータ200以上の書き換え、精度整合のための10万件超のテスト、2か月超のリリース延期を実施して、初期性能が目標の35分の1から同等域まで最適化しました。
  • NVIDIAの輸出規制下の「中国向け」H20と比較して、Ascend 950PRではFP4演算、MoE推論速度(RLロールアウトでの伸びを含む)、マルチモーダル生成速度などで大きな改善が報告され、HBM容量も上回るとされています。
  • 本記事はこの成果を、サプライチェーンとエコシステムの実証として位置づけ、中国国内で動かす推論ワークロードにおいて国産ハードが“妥協ではなく実行可能な選択肢”になったことを示唆しています。
  • Ascend 950はLLMのフェーズ差に着目し、プリフィル/リコメンデーション用とデコード/学習用で異なるアーキテクチャとメモリ・帯域構成を用意しており、推論特化の950PRは量産済み、950DTは後続予定です。

2026年4月、DeepSeekはV4――1.6兆パラメータのMoEモデル――をリリースし、さらに初めて技術レポートで、検証済みハードウェアのリストにNVIDIAと並んでHuaweiのAscend NPUが掲載されました。ここでは、それが実際のサプライチェーンにとって何を意味するのか、残るボトルネック、そして今後どこへ向かっているのかを物語ります。

The Validation That Changed Everything

2026年4月24日にDeepSeekがV4をリリースしたとき、注目の多くはモデルのベンチマークスコアがGPT-5およびClaude Opusに匹敵した点に集まりました。とはいえ、より静かに、しかしおそらくより重要な出来事が細かな記述の中に埋もれていました:

DeepSeek V4は、HuaweiのAscend 950PRチップで推論の完全な検証を行った初のトップティア・モデルです。

これは「コンパイルできた」というチェックボックス検証ではありません。DeepSeekチームは次のことを行いました:

  • HuaweiのCANN Nextフレームワーク向けに、コアとなるCUDAオペレータを200以上書き換え
  • 精度のアラインメントのために100,000以上のテストケースを実行
  • 約30人年に相当するエンジニアリング工数を投資
  • ポート完了のために、製品ローンチを特に2か月以上遅らせ
  • 最初のポートは目標性能の1/35でしか動かなかった――そこから最適化して同等性まで戻した

950PR上での結果は実際のものです:

指標 NVIDIA H20に対する改善
FP4演算 2.87倍高速(1.56 PFLOPS vs 約0.5)
MoE推論速度 1.5〜1.73倍(一般)/最大1.96倍(RLロールアウト)
マルチモーダル生成 +60%高速
HBM容量 112GB vs 96GB

注意点があります。H20はNVIDIAのいわゆる「中国向け」――輸出規制によって意図的に能力が制限されています。これは950PRがH100やB200を上回ることを意味しません。しかしそれでも、中国国内での推論ワークロードにおいて、国産ハードウェアがいまや信頼できる選択肢になったこと――おまけではなく代替になったことを意味します。

The Chip That Does It: Ascend 950's Dual-Architecture Strategy

950が興味深いのは、単にスペックが優れているからではありません。Huaweiが見出したのは、LLM推論には本質的に異なる2つのフェーズがあるという点で、それを共有ダイ上で2つの別チップとして設計しました:

バリアント フェーズ メモリ 帯域幅 出荷
950PR Prefill + Recommendation HiBL 1.0(128GB) 1.6 TB/s 今すぐ(2026年3月から量産)
950DT Decode + Training HiZQ 2.0(144GB) 4 TB/s Q4 2026

Prefill(入力全体を読み取り、KVキャッシュを計算すること)は計算律速です。必要なのはメモリ帯域ではなく、素のFLOPsです。より安価なHBMでも問題ありません。Decode(1トークンずつ生成)はメモリ帯域律速――ボトルネックは、計算ユニットへ重みをどれだけ速く供給できるかです。ここでは、4 TB/sという帯域幅が実際に差になります。

950DTの4 TB/sのHiZQ 2.0メモリは、NVIDIAのH200(141GB / 4.8 TB/s)と同じリーグに位置します。提供は2026年Q4まで待つ必要がありますが、そこから学習側のギャップが埋まり始めるタイミングです。

The Self-Developed HBM Bet

HBMはAIチップのコストの約50%を占めます。Huaweiが独自のHBMを開発する決定――HiBL(低コスト/バジェットライン)およびHiZQ(高性能)――は、単にサプライチェーンの安全性のためだけではありません。市販のHBMではできないカスタマイズを可能にします。

ローカルのHBMサプライチェーンは着実に前進しています:

マイルストーン ステータス タイムライン
CXMT(长鑫存储)HBM3サンプルがHuaweiへ納入 完了
CXMT上海のパッケージング工場 Construction 2026年末
CXMT HBM3Eの開発 In progress 目標2027年
CXMT HBM3の量産 ❌ 未開始――現時点で量の受注なし 遅延

ボトルネックは:CXMTのHBM3は依然としてテスト段階です。原材料はサンプル実行は支えられても、量産は支えられません。またHuaweiのアライアンスは、福建晋华(Fujian Jinhua)および武汉新芯(Wuhan Xinxin)をセカンダリのファウンドリとしても協力していますが、これらは補助的な生産能力であり、一次ソースではありません。

現実的なところ: HiBL 1.0およびHiZQ 2.0は、DRAMダイのレベルではなく、パッケージおよびコントローラのレベルで「自己開発」になっている可能性が高いです。Huaweiは利用可能なDRAMダイを取り、独自の2.5D積層でパッケージし、さらにカスタムコントローラを追加します。だからこそ、HiBL 1.0の1.6 TB/s帯域幅が達成可能になるのです――それは、彼らの設計意欲によって上限が決まるのではなく、調達できるダイによって制約されるからです。

The Five Bottlenecks That Limit Delivery

HBMが見出しを飾りますが、それは唯一の制約ではありません。以下に5つすべてを、重要度順に並べます:

1. Advanced Manufacturing (SMIC)

最も厳しいボトルネックです。SMICのN+2(7nm相当。EUVが使えないためDUVのマルチパターニングを使用)は、月あたりの能力が約35,000〜38,000枚の12インチウエハです。歩留まりを約92%とすると、年間でおよそ75万台のAscend 950チップになります。

75万K(750K)は多く聞こえますが、中国のAI市場全体向けです。NVIDIAは毎年数百万台のH100/B200を出荷しています。能力のギャップは桁違いです。

SMICは2026年に月7万枚まで能力を2倍にする計画ですが、EUVがない以上、世代を重ねるごとに難易度は指数関数的に上がります。950DTも同じN+2プロセスを使います。国産の高度製造の絶対上限は、少なくとも2028年までは制約として残り続けるでしょう。

2. Advanced Packaging

Ascend 950は2.5DのChipletパッケージング(2つの計算ダイ+2つのI/Oダイ+HBM)を必要とします。これは「あると良い」ではありません。これがないと、チップを組み立てられません。

サプライヤ ステータス
JCET(长电科技)— Dongguan HBM base フル稼働
Tongfu Micro(通富微电)— SJ1/SJライン フル稼働、緊急の増設
QuLiang Electronics(渠梁电子) 増設を加速

パッケージング能力が、最も厳しい短期のボトルネックです。JCETとTongfuの増設による新たな能力は、2027年までには供給として大きく効いてきません。だからこそ、2026年の中国A株市場では「先端パッケージングの在庫」が最も熱い半導体テーマになっています。

3. Interconnect: Making 8,192 Cards Work as One Computer

Atlas 950 SuperNode(8,192枚のカード、160キャビネット、1,000平方メートル)は、新しい相互接続プロトコル――Lingqu 2.0 / UnifiedBus――を必要とします。前身のLingqu 1.0は、384カードのAtlas 900システム(300+が導入済み)で検証済みでした。384から8,192へスケールするのは、複雑性が飛躍することを意味します:

  • キャビネット間での完全な光インターコネクト
  • 総帯域幅16 PB/s(グローバルなインターネットのピークトラフィックの10倍)
  • クラスタ単位でMW級の全液冷

これは2026年Q4のデリバリーです。エンジニアリング上のリスクは現実にありますが、Lingqu 1.0でのHuaweiの実績(スケールで実証済み)からすると、これは技術リスクというよりスケジュールリスクです。

4. Software Ecosystem (CANN)

返却形式: {"translated": "翻訳されたHTML"}

CANNは2025年12月に完全にオープンソース化されました。DeepSeek V4の成功した移植は、これまでで最大の検証イベントです。しかし、開発者数のギャップは際立っています:約87,000人のCANN開発者 vs 約300万人のCUDA開発者。

Huaweiの戦略は「CUDAからCANNへの自動変換ツール」と、PyTorch互換レイヤーを組み合わせることです。これは標準的なモデルアーキテクチャには機能します。例外ケースでは、演算子の手動書き換えが依然として必要であり、DeepSeekが投資したのと同じ30人年規模の作業がそのまま発生します。

専任のMLチームを持つ大企業なら、これは可能です。小規模チームにとっては障壁になります。

5. 冷却と電力

1チップあたりのTDPは約310Wです。スーパーノード規模では、総消費電力はメガワット級になります。フルの液体冷却が必須で、再生可能エネルギーとの整合(グリーン電力対応)もインフラの複雑さを増します。これは解決可能です――技術は存在します――ただし、データセンター事業者ごとに導入スピードは異なります。

長期的な見通し:率直な評価

軌道は現実のものだ

Huaweiには明確な3世代のロードマップがあります:

世代 FP8 FP4 メモリBW 想定
950(PR + DT) 1 PFLOPS 2 PFLOPS 4 TB/s 2026
960 2 PFLOPS 4 PFLOPS 約8 TB/s 2027年Q4
970 4 PFLOPS 8 PFLOPS 約12-16 TB/s 2028年Q4

各世代は概ねスペックが2倍になります。売上は2026年に120億ドル(2025年の75億ドルから60%増)を記録しました。事業は拡大しています。

ただし文脈が必要だ

項目 2026年の現実 2028年の目標
需給ギャップ 深刻(750Kチップ vs 需要の2〜3倍) 改善するが、バランスは取れていない
性能 vs NVIDIA 950PR ≈ H200(NVIDIAにとっての次世代ではない最後の世代) 960 ≈ 2027年NVIDIAの70〜80%
製造プロセス 7nm(EUVなし) 依然として7nm――チップレットで緩和はされるが、解消はできない
市場シェア(中国の推論) 約20% 40〜50%(見込み)

率直な評価:Ascendは、絶対的な意味でNVIDIAに「追いつく」ことはないでしょう。 プロセスギャップ(7nm DUV vs 3nm EUV+)は物理的であり、気合でどうにかできるものではありません。とはいえ、追いつく必要はありません。中国のAIチップ市場は構造的に二分化しています:

Ascendは国内需要の約50%を取り、NVIDIAはH20により高価格帯を維持し、さらに密輸された/クラウドでアクセス可能なH100、そして他の国内プレイヤー(Cambricon、Moore Threads、Biren)が残りを分け合う

中国市場向けにAIプロダクトを作る人にとっては、これは「切り替えるかどうか」の問題ではありません。「いつ切り替えるか」です。グローバル市場向けに作る人にとっては影響ありません――CUDAで継続してください。

2つの技術世界が固まりつつあります:CUDA WorldとCANN World。

Ascend 950上でのDeepSeek V4が本当に証明したこと

2026年4月以前は、Huaweiは「私たちのチップは動作する」と言えました。2026年4月以降は、DeepSeekが、1.6Tパラメータのモデル、実際の本番トラフィック、そして実コストの数値でそれを証明しました。 信頼性のギャップは埋まりました。

残るボトルネックはすべて物理的または時間的なものです:より多くのチップ、より多くのパッケージングライン、より大きいファブ能力、エコシステムが成熟するためのより多くの時間。これらには即効の解決策はありません。とはいえ、単一のブレークスルーに依存しているわけでもありません。これは生産のスケールアップの問題であり、生産スケールはお金と時間に反応します。

中国のAIチップ・エコシステムは、いま最も重要なストレステストを通過しました。残っているボトルネックは難しいものの、難しさの種類は「線形に伸びる進捗曲線に沿ってくる」類です――「そもそも動くのか」という二者択一の勝ち負けではありません。