線形二次レギュレータのスカラー・フェデレーテッド学習

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 提案されたScalarFedLQRは、異種エージェントのLQR制御において共通方策を学習するための、モデルフリーかつ通信効率重視のフェデレーテッド学習手法である。
  • 各エージェントは局所のゼロ次勾配推定に基づく勾配の「スカラー射影」だけを送信し、サーバ側でそれらを集約してグローバルな下降方向を復元することで、アップリンク通信をO(d)からO(1)に削減している。
  • 射影に伴う近似誤差は参加エージェント数の増加とともに減少し、その結果として大規模なフリートほど勾配復元が高精度になり、より大きいステップサイズと高次元でも速い線形収束が可能になると主張している。
  • 標準的な正則性条件のもとで各反復が安定(stabilizing)を保ち、平均LQRコストが線形速度で減少すること、さらに数値実験で通信削減を伴いながらフルグラディエント型のフェデレーテッドLQRに匹敵する性能が示されている。

Abstract

線形二次レギュレータ(LQR)制御における異種エージェントの共通ポリシーを、モデルフリー学習するための通信効率の高いフェデレーテッドアルゴリズムであるScalarFedLQRを提案します。この方法は分解された射影勾配メカニズムに基づいており、各エージェントは局所のゼロ次勾配推定のスカラー射影のみを通信します。サーバはこれらのスカラーのメッセージを集約して、グローバルな降下方向を再構成し、それにより、ポリシー次元に依存せず、エージェントあたりのアップリンク通信をO(d)からO(1)へ削減します。決定的な点として、射影によって生じる近似誤差は、参加するエージェント数が増えるほど減少し、有利なスケーリング則が成り立ちます。すなわち、大規模なフリートほどより正確な勾配回復が可能になり、より大きなステップサイズを許容でき、また高次元であってもより速い線形収束を達成します。標準的な正則性条件の下では、すべての反復が安定化した状態を保ち、平均LQRコストは線形に速く低下します。数値実験の結果は、通信量を大幅に削減しつつ、全勾配フェデレーテッドLQRと同等の性能を示すことを明らかにしています。