概要: 現代の大規模言語モデルの事前学習は、単一プログラム複数データ(SPMD)パラダイムに大きく依存しており、加速器間で厳密な結合が必要となります。この結合のため、過渡的な速度低下、ハードウェア障害、同期オーバーヘッドによって計算全体が停止し、大規模化に伴って膨大な計算時間が浪費されます。DiLoCoのような近年の分散手法では通信帯域は削減されましたが、本質的には同期的であり、こうしたシステムの停止に対して脆弱なままでした。そこで本稿では、ロックステップ同期の障壁を打ち破り、SPMDを超えて学習の良いスループット(goodput)を最大化することを目的とした、DiLoCoフレームワークの発展であるDecoupled DiLoCoを導入します。Decoupled DiLoCoは、複数の独立した「learners(学習者)」に計算を分割し、各学習者がローカルな内側の最適化ステップを実行します。これらの学習者はパラメータ断片を中央のシンクロナイザに非同期に通信します。これにより、最小クオーラム、適応的なグレースウィンドウ、および動的なトークン重み付きマージを用いて更新を集約することで、失敗した、または遅延する学習者を回避できます。いわゆる「chaos engineering(混沌工学)」に触発されて、厳密にグローバルなダウンタイムゼロのまま、何百万ものシミュレートされたチップを用いる障害が起きやすい環境において学習効率を大幅に改善することを実現します。また、テキストタスクと視覚タスクの双方において、密な(dense)アーキテクチャおよび mixture-of-experts(MoE)アーキテクチャの両方で、競争力のあるモデル性能を維持します。
耐障害性を高めるための分散事前学習「Decoupled DiLoCo」
arXiv cs.CL / 2026/4/24
📰 ニュースModels & Research
要点
- この論文は、SPMDベースの分散事前学習が脆弱である理由として、アケラレータ間の密な結合により、どれかのワーカーが遅くなる/失敗すると全体が停止してしまう点を指摘しています。
- そこで、ロックステップ同期を打ち破る「Decoupled DiLoCo」を提案し、複数の独立した学習者(learners)がローカルで最適化を行い、パラメータ断片を非同期に中央の同期器へ送る仕組みにします。
- 中央の同期器は、最低クォーラム、適応的な猶予ウィンドウ、動的なトークン重み付きマージにより、失敗した/遅い学習者を回避しつつ更新を集約します。
- 障害の起きやすい環境で(シミュレーションとして数百万のチップを用いて)学習効率が大きく向上し、グローバルなダウンタイムはゼロのまま、密(dense)およびMoE(mixture-of-experts)の両方でテキスト/画像タスクの性能も競争力を維持できたと報告しています。


