CCL-D:大規模モデル学習におけるスロー/ハング異常の高精度診断システム

arXiv cs.AI / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文では、大規模分散モデル学習中に発生するスロー/ハングの通信異常を検出し、影響箇所を特定するための高精度診断システム「CCL-D」を提案する。
  • CCL-Dは、軽量な分散トレーシングにより通信トラフィックからクロスレイヤの異常指標を測定する「ランクレベルのリアルタイムプローブ」と、「意思決定アナライザ」を組み合わせている。
  • アナライザは異常の自動検出と根本原因のローカライズを行い、スロー/ハングの原因となる不具合のあるGPUランクを高精度に特定できる。
  • 4,000GPUクラスタで1年間運用した結果、既知のスロー/ハング異常に対するカバレッジがほぼ完全となり、影響ランクの特定に要する時間は既存手法を上回って通常6分以内だった。

Abstract

学習の規模が拡大するにつれて、集団通信ライブラリ(CCL)は、ハードウェア・ソフトウェア・環境要因が複雑に相互作用することに起因する異常にますます直面するようになっています。これらの異常は通常、遅延/ハング(slow/hang)通信として現れますが、これは診断において最も頻繁で、かつ最も時間を要するカテゴリです。しかし、従来の診断手法は依然として不正確で非効率であり、根本原因の特定に数時間、場合によっては数日を要することが少なくありません。そこで本研究では、大規模分散学習における遅延/ハング異常を検出し、その発生箇所を特定するための高精度診断システム「CCL-D」を提案します。CCL-Dは、ランクレベルのリアルタイムプローブと、インテリジェントな意思決定アナライザを統合しています。プローブは、軽量な分散トレーシングフレームワークを用いて通信トラフィックを監視し、クロスレイヤの異常指標を測定します。アナライザは、自動化された異常検出と根本原因の特定を実行し、不良となっているGPUランクを正確に特定します。1年間にわたり4,000-GPUクラスタに展開したところ、CCL-Dは既知の遅延/ハング異常に対してほぼ完全なカバレッジを達成し、影響を受けたランクを6分以内に特定しました。これは既存の解決策を大きく上回ります。