MRC(Multipath Reliable Connection:マルチパス信頼接続)は、OpenAIがAMD、Broadcom、Intel、Microsoft、NVIDIAと共同で開発した新しいオープンネットワーキングプロトコルであり、大規模なAIトレーニングクラスターにおいてGPUネットワークの性能と耐障害性を向上させます。具体的には、何百もの経路に同時にパケットを分散することで、ネットワーク障害からマイクロ秒単位で復旧し、10万基を超えるGPUを搭載するスーパーコンピューターを、イーサネットスイッチを2層だけ用いる構成で構築できるようにします。
投稿 OpenAI Introduces MRC (Multipath Reliable Connection): A New Open Networking Protocol for Large-Scale AI Supercomputer Training Clusters はMarkTechPost に最初に掲載されました。




