CCL-D:大規模モデル学習におけるスロー/ハング異常の高精度診断システム
arXiv cs.AI / 2026/5/7
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文では、大規模分散モデル学習中に発生するスロー/ハングの通信異常を検出し、影響箇所を特定するための高精度診断システム「CCL-D」を提案する。
- CCL-Dは、軽量な分散トレーシングにより通信トラフィックからクロスレイヤの異常指標を測定する「ランクレベルのリアルタイムプローブ」と、「意思決定アナライザ」を組み合わせている。
- アナライザは異常の自動検出と根本原因のローカライズを行い、スロー/ハングの原因となる不具合のあるGPUランクを高精度に特定できる。
- 4,000GPUクラスタで1年間運用した結果、既知のスロー/ハング異常に対するカバレッジがほぼ完全となり、影響ランクの特定に要する時間は既存手法を上回って通常6分以内だった。


![[MTP Drafter] LLM高速化技術の裏側 〜隠されざる下書きコストの天秤〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F275956375%2Frectangle_large_type_2_1777831d30d90144bac0162637953c16.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)

