最前線のAIモデルを学習させることは、本質的には協調(コーディネーション)の問題です。何千ものチップが互いに絶えず通信し、ネットワーク全体にわたるすべての勾配更新を同期させなければなりません。1つのチップが故障したり、たとえ速度が落ちたりするだけでも、学習実行全体が停止してしまう可能性があります。モデルが何千億(数百億)ものパラメータへとスケールするにつれ、この脆さはますます耐えがたいものになります。 […]
この記事はGoogle DeepMindが分離型DiLoCoを導入:高いハードウェア障害率下で88%のグッドプットを達成する非同期学習アーキテクチャとして、最初にMarkTechPostに掲載されました。




