局所的トレーニングデータ統計に基づくクライアント条件付きフェデレーテッドラーニング
arXiv cs.LG / 2026/3/13
💬 オピニオンModels & Research
要点
- 本論文は、各クライアントのトレーニングデータから局所的に算出したPCA統計量を1つのグローバルなフェデレーテッドラーニングモデルに条件付けすることを提案し、追加の通信を一切必要とせずにデータのヘテロジニティに対処します。
- 本手法は、4つのヘテロジニティタイプ(ラベルシフト、共変量シフト、概念シフト、結合ヘテロジニティ)、4つのデータセット、7つのベースライン手法を横断する97の設定を評価し、Oracleベースラインと同等であることを示し、結合ヘテロジニティの領域では連続的な統計量が離散的なクラスタ識別子よりも有利な場合に1–6%の改善を示し、スパース性に対して頑健であることを示しています。
データのヘテロゲネシティの下でのフェデレーテッドラーニング(FL)は依然として困難です。既存の手法はクライアント間の差異を無視する(FedAvg)、コストの高いクラスタ発見を必要とする(IFCA)、またはクライアントごとのモデルを維持する(Ditto)場合が多く、データがスパースだったりヘテロゲネシティが多次元だったりすると劣化します。私たちは、各クライアントのトレーニングデータから局所的に計算されたPCA統計量を1つのグローバルモデルに条件付けることを提案します。これにより追加の通信は一切不要です。4つのヘテロゲニティタイプ(ラベルシフト、共変量シフト、概念シフト、結合ヘテロジニティ)、4つのデータセット(MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100)、そして7つのFLベースライン手法を跨いだ97の設定で評価した結果、真のクラスタ割り当てを知っているOracleベースラインと全設定で同等であることを確認し、連続的な統計量が離散的なクラスタ識別子より豊富な場合には結合ヘテロジニティにおいて1–6%の改善を示し、これらの手法の中でスパース性に対して唯一頑健であることを示しました。