分布的クリティック正則化を用いた連邦型分布強化学習

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、分布情報を平均化して失うことなく保持しつつ、クライアントが分位値関数クリティックを連合させることを可能にする連邦型分布型強化学習（FedDistRL）を正式に定式化する。
TR-FedDistRLを導入し、各クライアントごとに時系列バッファ上のリスク配慮型ワッサースタイン重心を用いてグローバルクリティックを制約し、連合の過程で分布の詳細を維持する。
分布的信頼域は、重心参照を中心とした縮小・圧縮ステップとして実装され、更新が意味のある分布領域内にとどまることを保証する。
バンディット、マルチエージェントグリッドワールド、および連続的なハイウェイ環境における経験的結果は、平均のスミア低減、安全性代理指標の改善、平均指向型および非連邦ベースラインと比較してクリティック/ポリシーのドリフト低減を示している。

要旨: 連合型強化学習は通常、価値関数や方策をパラメータの平均化によって集約します。これにより期待回収が強調され、安全性が重要な設定で重要となる統計的な多モード性や裾部の挙動が見えにくくなる可能性があります。我々は連合分布強化学習(FedDistRL)を定式化します。ここではクライアントが分位値関数クリティックをパラメータ化し、これらのネットワークだけを連合します。さらに、TR-FedDistRLを提案します。これは各クライアントごとに、時間バッファ上のリスク認識型ワッサースタイン重心を構築します。この局所的な重心は、パラメータ平均化されたクリティックを制約する参照領域を提供し、連合プロセス中に必須の分布情報が平均化されて消失しないようにします。分布的信頼領域は、この参照を中心とした縮小-潰しステップとして実装されます。固定ポリシー評価の下では、実現可能性マップは非拡張であり、評価中のプローブ集合ワッサースタイン距離において更新は収縮的です。バンディット、マルチエージェントグリッドワールド、連続的なハイウェイ環境での実験は、平均的なばらつきの抑制、安全性の代理指標（壊滅/事故率）の改善、平均指向および非連合ベースラインに比べてクリティック/ポリシーのドリフトが低いことを示しました。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

分布的クリティック正則化を用いた連邦型分布強化学習

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer