Astera Labsは、火曜日にラックスケールAIシステムを構築するために、NvidiaのNVSwitchの代替となる手段を発表し、それがほぼあらゆるアクセラレータで動作するはずだと主張しました。
AIファブリックスイッチ(コードネーム:Scorpio X)は、320レーンのPCIe 6.0接続を1つのASICに詰め込み、双方向で5.12 TB/sの帯域幅を実現します。
歴史的にPCIeスイッチは、スケールアウト型の計算ファブリックを含むさまざまな用途で使われてきました。CPUだけでは、必要とされるGPU、NIC、ストレージすべてに対して、レーン数も速度も十分ではないことがあったのです。そのため、すべてをCPUにぶら下げるのではなく、(多くの場合NICに内蔵された)PCIeスイッチを使って、それらをまとめて接続していました。
Asteraは、十分に大きなスイッチがあれば、PCIeはNVLinkのようなインターコネクトに対する実行可能な代替になり得る、と主張しています。これは、アクセラレータを作り直す必要なく、数十台以上のGPUを1つの巨大なGPUのように振る舞わせるために使われるスケールアップファブリックの文脈です。
ただしAsteraは、単により大きなPCIeスイッチを作っただけではありません。Scorpioには、NvidiaのNVSwitchと同様のネットワーク内演算(in-network compute)機能が多数搭載されており、集団通信(collective communications)を高速化するのに役立ちます。
こうした通信は、特に生成AIの推論で重要です。大規模言語モデルは、混合専門家(MoE)アーキテクチャが広まり始めたことで、ネットワークの観点からかなり“口数が多い”存在になってきました。
MoEモデルは、複数のサブモデルと呼ばれる「専門家(experts)」によって構成されます。生成される各トークンごとに、(異なるGPU上で動作している可能性がある)別の専門家が選択されて使われることがあります。
集団通信をスイッチに移すことで、GPUはネットワークの追従(遅れ)を待つ時間が減り、トークンを吐き出す作業により多くの時間を割けます。
Asteraは、MoE推論向けに最適化したマルチキャスト操作の開発まで進めており、これをHypercastと呼んでいます。
「標準的なマルチキャストには、実際にサポートできるグループ数という制限があります。また、混合専門家モデルでは、そのグループをオンザフライで変更する必要が生じるという動的な性質もあります」──Asteraのプロダクトマネジメント担当AVPであるAhmad Danesh氏はEl Regにそう語りました。
Scorpioがスケールアップのエコシステムにどう位置付くか
チップ間インターコネクトとしてPCIeを使うことには明確な利点がありますが、ScorpioはNvidiaのNVSwitchチップの“完全な代替”というわけではありません。1月のCESで発表されたNVSwitch 6は、14.4 TB/sでほぼ3倍の帯域幅を提供します。
ただしAsteraは、NVSwitchと真正面から競合する必要はありません。実際、Asteraは昨春、Nvidiaの高速インターコネクトをより広いエコシステムに開放しようとする取り組みであるNVLink Fusionのサポートを拡張する計画を発表しました。
その代わりに、Scorpioはよりベンダーニュートラルな代替として位置付けられています。NVLink Fusionのような技術、あるいは台頭しつつあるUALinkプロトコルは勢いを増していますが、チップはそれらを前提に設計される必要があります。
PCIeは、すでにアクセラレータにデータを入出力するために使われているため、ほぼ何にでも対応できます。たとえば、NvidiaのRTX Pro 6000 Serverカードを32枚以上つなぎ合わせたい場合、それらのGPUはそもそもNVLinkをまったくサポートしないため、PCIeスイッチが必要になります。
PCIeはまた、NvidiaとGroq、AWSとCerebras、あるいはIntelとSambaNovaのように見られる分離型推論アーキテクチャに向けて、チップを組み合わせて使いやすくもしています。
これらのアーキテクチャでは、計算負荷の高いプリフィル処理には1つのアクセラレータを、帯域集約型のデコード処理には別のアクセラレータを用います。そのためには、チップ同士が互いに接続されている必要があります。多くのAIチップビルダーはこれをイーサネットで行っていますが、PCIeのほうがより直接的です。
MORE CONTEXT
-
Inside Amazon Web Services' plan to make networking disappear
-
Bandwidth hogs rejoice, Celestica's latest switch is bristling with 64 ports of 1.6 Tbps Ethernet
-
Google to sell its TPUs to some customers, who also fancy big-G GPUs
-
Meta Arms itself to the teeth by signing for 'tens of millions' of AWS Graviton cores
Asteraは、Scorpio Xファミリーのチップに加えて、Scorpio Pシリーズのスイッチも拡張しており、PCIe接続のレーン数は32から320までのモデルが用意されています。
これらすべてのスイッチは、COSMOS管理スイートと連携して動作します。COSMOSは、ネットワークファブリック全体で発生した問題を追跡し、解決することを支援することを目的に設計されたハードウェア監視プラットフォームです。
刷新されたAsteraのScorpioスイッチは現在サンプル出荷中で、2026年後半に量産が立ち上がる見込みです。 ®




