Google DeepMind、分離型DiLoCoを導入—高いハードウェア故障率下で88%のグッドプットを実現する非同期学習アーキテクチャ

MarkTechPost / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この記事では、最前線のAIモデル学習を、勾配更新をネットワーク全体で継続的に同期させる必要がある「協調（コーディネーション）の問題」として位置づけています。
モデルが数百十億（数百億）パラメータ級へ拡大するにつれ、ハードウェアの速度低下や故障によって学習実行が停止してしまう脆弱性がより深刻になると論じています。
Google DeepMindは、ワーカー間の結合度を下げてハードウェア不調が起きても学習を継続できるようにする非同期学習アーキテクチャ「Decoupled DiLoCo」を導入しています。
その結果として、高いハードウェア故障率下でも88%のグッドプットが報告されており、より同期的な手法より効率と頑健性が高いことを示唆しています。

最前線のAIモデルを学習させることは、本質的には協調（コーディネーション）の問題です。何千ものチップが互いに絶えず通信し、ネットワーク全体にわたるすべての勾配更新を同期させなければなりません。1つのチップが故障したり、たとえ速度が落ちたりするだけでも、学習実行全体が停止してしまう可能性があります。モデルが何千億（数百億）ものパラメータへとスケールするにつれ、この脆さはますます耐えがたいものになります。 […]

この記事はGoogle DeepMindが分離型DiLoCoを導入：高いハードウェア障害率下で88%のグッドプットを達成する非同期学習アーキテクチャとして、最初にMarkTechPostに掲載されました。