AI Navigate

分布的クリティック正則化を用いた連邦型分布強化学習

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、分布情報を平均化して失うことなく保持しつつ、クライアントが分位値関数クリティックを連合させることを可能にする連邦型分布型強化学習(FedDistRL)を正式に定式化する。
  • TR-FedDistRLを導入し、各クライアントごとに時系列バッファ上のリスク配慮型ワッサースタイン重心を用いてグローバルクリティックを制約し、連合の過程で分布の詳細を維持する。
  • 分布的信頼域は、重心参照を中心とした縮小・圧縮ステップとして実装され、更新が意味のある分布領域内にとどまることを保証する。
  • バンディット、マルチエージェントグリッドワールド、および連続的なハイウェイ環境における経験的結果は、平均のスミア低減、安全性代理指標の改善、平均指向型および非連邦ベースラインと比較してクリティック/ポリシーのドリフト低減を示している。

要旨: 連合型強化学習は通常、価値関数や方策をパラメータの平均化によって集約します。これにより期待回収が強調され、安全性が重要な設定で重要となる統計的な多モード性や裾部の挙動が見えにくくなる可能性があります。我々は連合分布強化学習(FedDistRL)を定式化します。ここではクライアントが分位値関数クリティックをパラメータ化し、これらのネットワークだけを連合します。さらに、TR-FedDistRLを提案します。これは各クライアントごとに、時間バッファ上のリスク認識型ワッサースタイン重心を構築します。この局所的な重心は、パラメータ平均化されたクリティックを制約する参照領域を提供し、連合プロセス中に必須の分布情報が平均化されて消失しないようにします。分布的信頼領域は、この参照を中心とした縮小-潰しステップとして実装されます。固定ポリシー評価の下では、実現可能性マップは非拡張であり、評価中のプローブ集合ワッサースタイン距離において更新は収縮的です。バンディット、マルチエージェントグリッドワールド、連続的なハイウェイ環境での実験は、平均的なばらつきの抑制、安全性の代理指標(壊滅/事故率)の改善、平均指向および非連合ベースラインに比べてクリティック/ポリシーのドリフトが低いことを示しました。