CCL-D：大規模モデル学習におけるスロー／ハング異常の高精度診断システム

arXiv cs.AI / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、大規模分散モデル学習中に発生するスロー／ハングの通信異常を検出し、影響箇所を特定するための高精度診断システム「CCL-D」を提案する。
CCL-Dは、軽量な分散トレーシングにより通信トラフィックからクロスレイヤの異常指標を測定する「ランクレベルのリアルタイムプローブ」と、「意思決定アナライザ」を組み合わせている。
アナライザは異常の自動検出と根本原因のローカライズを行い、スロー／ハングの原因となる不具合のあるGPUランクを高精度に特定できる。
4,000GPUクラスタで1年間運用した結果、既知のスロー／ハング異常に対するカバレッジがほぼ完全となり、影響ランクの特定に要する時間は既存手法を上回って通常6分以内だった。

Abstract

学習の規模が拡大するにつれて、集団通信ライブラリ（CCL）は、ハードウェア・ソフトウェア・環境要因が複雑に相互作用することに起因する異常にますます直面するようになっています。これらの異常は通常、遅延/ハング（slow/hang）通信として現れますが、これは診断において最も頻繁で、かつ最も時間を要するカテゴリです。しかし、従来の診断手法は依然として不正確で非効率であり、根本原因の特定に数時間、場合によっては数日を要することが少なくありません。そこで本研究では、大規模分散学習における遅延/ハング異常を検出し、その発生箇所を特定するための高精度診断システム「CCL-D」を提案します。CCL-Dは、ランクレベルのリアルタイムプローブと、インテリジェントな意思決定アナライザを統合しています。プローブは、軽量な分散トレーシングフレームワークを用いて通信トラフィックを監視し、クロスレイヤの異常指標を測定します。アナライザは、自動化された異常検出と根本原因の特定を実行し、不良となっているGPUランクを正確に特定します。1年間にわたり4,000-GPUクラスタに展開したところ、CCL-Dは既知の遅延/ハング異常に対してほぼ完全なカバレッジを達成し、影響を受けたランクを6分以内に特定しました。これは既存の解決策を大きく上回ります。

【64歳からのAI挑戦｜第2章-1】最初に私がAIに聞いたこと― すべてはここから始まりました ―

note

Claude CodeとCodexのAuto Mode、40時間でわかった分け方

note

[MTP Drafter] LLM高速化技術の裏側〜隠されざる下書きコストの天秤〜

note

ローカルLLMの小さな応答を見て、AIとの対話そのものに感謝してしまった話｜LM Studio｜Gemma4

note

【AI作詞紹介】心の灯を消さないで

note

CCL-D：大規模モデル学習におけるスロー／ハング異常の高精度診断システム

要点

Abstract

関連記事

【64歳からのAI挑戦｜第2章-1】最初に私がAIに聞いたこと― すべてはここから始まりました ―

Claude CodeとCodexのAuto Mode、40時間でわかった分け方

[MTP Drafter] LLM高速化技術の裏側〜隠されざる下書きコストの天秤〜

ローカルLLMの小さな応答を見て、AIとの対話そのものに感謝してしまった話｜LM Studio｜Gemma4

【AI作詞紹介】心の灯を消さないで

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

【64歳からのAI挑戦｜第2章-1】最初に私がAIに聞いたこと― すべてはここから始まりました ―

Claude CodeとCodexのAuto Mode、40時間でわかった分け方

[MTP Drafter] LLM高速化技術の裏側 〜隠されざる下書きコストの天秤〜

ローカルLLMの小さな応答を見て、AIとの対話そのものに感謝してしまった話 ｜LM Studio｜Gemma4

【AI作詞紹介】心の灯を消さないで

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

[MTP Drafter] LLM高速化技術の裏側〜隠されざる下書きコストの天秤〜

ローカルLLMの小さな応答を見て、AIとの対話そのものに感謝してしまった話｜LM Studio｜Gemma4