MRCとSRv6によるレジリエントなAIスーパーコンピュータ向けネットワーキング

arXiv cs.AI / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、同期型の大規模AI事前学習ではテールレイテンシが支配的なボトルネックになるとして、その解決に向けた設計変更を提案している。
RDMAベースの新しいトランスポートプロトコルであるMRCは、複数の通信経路にトラフィックを分散（spray）し、アクティブに負荷分散することでフローの衝突問題を解消する。
高いスイッチのラジックスと冗長性を得るためにマルチプレーンのClosトポロジを用い、10万GPU超の学習クラスタを2層構成で構築しつつ物理的冗長性も高める。
静的なソースルーティングとしてSRv6を導入し、MRCが自律的に故障を迂回できるようにすることで、学習中の耐障害性を高める。
著者らは、OpenAIおよびMicrosoftの最大規模の学習クラスタにおいてMRCと静的SRv6ルーティングを本番運用した経験を述べており、これにより従来は中断していた多数のネットワーク障害下でも学習ジョブを継続できたと示している。

要旨: 同期型の事前学習ジョブを非常に大規模なスケールで実行する場合、その性能はテールレイテンシによって支配されます。私たちは3つの方策からなるアプローチを説明します: (1) 新しいRDMAベースのトランスポートプロトコルであるMRCは、多くの経路に対してスプレーし、それらの間でアクティブにロードバランスを行うことで、フロー同士の衝突という問題を解消します (2) 高いスイッチラディックスと冗長性の利点を得るために、マルチプレーンのClosトポロジを用い、物理的な冗長性を高めつつ、2階層のトポロジとして100K GPUを大きく超える規模の学習クラスタを構築できるようにします。そして (3) SRv6を用いた静的ソースルーティングにより、MRCが自律的に障害を迂回できる自由度を与えます。私たちは、OpenAIおよびMicrosoftの最大規模の学習クラスタにおける、本番環境でのMRCと静的SRv6ルーティングの運用経験を述べます。ここでは、それを用いて最先端の最新フロンティアモデルを学習してきました。MRCによって、AIの学習ジョブが、従来は学習を中断してしまっていた多数のネットワーク障害をやり過ごせることを示します。