要旨: 地理分散型のML訓練は、多くの新たなMLシナリオ(例:大規模モデル訓練、フェデレーテッドラーニング)に対して、多地域のクラウド資源と広域ネットワークを活用することで恩恵を得られます。 しかし、その効率は2つの課題によって制限されています。 第1に、多地域のクラウド資源に対する効率的な弾性(エラスティック)スケジューリングが通常欠けており、資源の利用率と訓練の性能に影響します。 第2に、WAN上での訓練通信は依然として主なオーバーヘッドであり、低帯域やWANの大きな変動の影響を受けやすいです。 本論文では、3つの観点から効率的なPSベースの地理分散型ML訓練を実現する枠組み「Cloudless-Training」を提案します。 まず、多地域クラウドにおける弾性スケジューリングと通信をサポートするために、制御プレーンと物理訓練プレーンからなる2層アーキテクチャを用います。さらに、利用可能なクラウド資源の異質性や、既存の訓練データセットの分布に応じて訓練ワークフローを適応的に展開できる弾性スケジューリング戦略を提供します。 第3に、クラウド間の訓練分割に対する2つの新しい同期戦略を提供します。これには、勾配累積を伴う非同期SGD(ASGD-GA)と、PS間モデル平均化(MA)が含まれます。 OpenFaaSで実装し、Tencent Cloudで評価しました。 実験の結果、Cloudless-Trainingは地理分散型の一般的なML訓練をサポートでき、資源利用率(例:訓練コスト削減率9.2%-24.0%)および同期効率(例:最大でベースラインに対して1.7倍の訓練速度向上)を、モデルの正しさを保証しつつ大幅に改善できることが示されました。
Cloudless-Training:地理分散したML学習の効率を改善するためのフレームワーク
arXiv cs.AI / 2026/4/28
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、マルチリージョンのクラウド資源に対する弾力的なスケジューリングの欠如と、WAN上の通信オーバーヘッド(帯域制限や揺らぎの影響)に起因する地理分散ML学習の非効率を扱います。
- 提案される「Cloudless-Training」は、PSベースの枠組みで、制御プレーンと物理学習プレーンの2層アーキテクチャを用いることで、サーバレスな形で弾力的スケジューリングと通信を実現します。
- Cloudless-Trainingは、利用可能なクラウド資源の不均一性と、既存の学習データセットの配置・分布に応じて学習ワークフローを適応させる弾力的スケジューリング戦略を導入します。
- さらにクラウド間での学習パーティション同期のために、ASGD-GA(勾配集約付き非同期SGD)とインターPSモデル平均化(MA)の2つの同期手法を提案し、モデルの正しさ保証を維持しつつ協調を改善します。
- OpenFaaSで実装しTencent Cloudで評価した結果、資源利用の大幅な改善(学習コスト9.2%〜24.0%削減)や、ベースライン比で最大1.7倍の学習速度(同期効率面)を示し、モデルの正確性も保証します。



