勾配を分割し、モデルを拡張する：勾配シャーディングによるサーバレス分散連合集約

arXiv cs.AI / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、サーバレス上での連合学習（FL）における重要なスケーラビリティ課題として、従来の設計では各アグリゲータがモデル勾配全体をメモリに保持する必要があり、AWS Lambdaのような1関数あたりのメモリ上限を超えると集約が破綻する点を指摘しています。
提案手法のGradsShardingは、勾配テンソルをM個のシャードに分割し、各シャードをサーバレス関数で独立に平均化することで集約を可能にしつつ、各関数は全クライアントからの寄与を受け取る設計です。
著者らは、FedAvgが要素ごとの平均であるため、シャーディングでもツリー型手法と同一の（ビット単位で同等の）集約結果が得られ、モデル精度は構成上不変になると主張しています。
HPC実験および実際のAWS Lambdaデプロイ（43MB〜5GBのモデル/勾配サイズ）で評価したところ、コストの転換点は約500MBにあり、VGG-16規模では約2.7倍のコスト削減、かつ既存アーキテクチャでは到達できないサーバレスのメモリ上限を超えた集約が可能になることが示されています。

要旨: サーバレス・プラットフォーム上でのフェデレーテッドラーニング（FL）集約は、克服困難なスケーラビリティの上限に直面します。既存のアーキテクチャ（lambda-FL、LIFL）では、クライアントを集約器（aggregator）へ分割しますが、すべての集約器がメモリ上に完全なモデル勾配を保持する必要があります。勾配が関数ごとのメモリ制限（たとえばAWS Lambdaで10 GB）を超えると、木（ツリー）の深さや分岐係数に関係なく、集約は実行不能になります。私たちはGradsShardingを提案します。これは勾配テンソルをM個のシャードに分割し、各シャードを、すべてのクライアントからの貢献を受け取って独立に平均化するサーバレス関数によって処理するものです。FedAvg（FedAvg平均化）は要素ごとの平均であるため、これは木構造ベースのアプローチとビット単位で同一の結果を生成します。そのため、モデル精度は構成上不変です。関数ごとのメモリは、クライアント数に依存せずO(|{\theta}|/M)で上限が定まり、任意に大きいモデルの集約を可能にします。私たちはHPC実験と、モデルサイズが43 MBから5 GBまでの実際のAWS Lambda環境におけるデプロイを通じて、GradsShardingをlambda-FLおよびLIFLと比較評価しました。その結果、約500 MBの勾配サイズで費用の逆転（コストの分岐点）が見られ、VGG-16スケールでは2.7倍のコスト削減が達成されました。さらに、GradsShardingはサーバレスのメモリ上限を超えてもデプロイ可能であり続ける唯一のアーキテクチャであることが示されました。