PA2D-MORL: パレート上昇方向分解に基づく多目的強化学習

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

共有:

要点

PA2D-MORL法は、パレート上昇方向分解を導入し、スカラー化重みを選択するとともに、複数の目的の相互改善を促す多目的ポリシー勾配を導く。
複数のポリシーを並列に最適化する進化的フレームワークを採用し、パレート前線の方向性と多様な解の探索を可能にする。
パレート前線近似の密度と広がりを高めるための、パレート適応型ファインチューニング段階を提案する。
マルチ目的のロボット制御タスクにおける実験結果は、アウトカムの品質と安定性の両方の点で、従来の最先端アルゴリズムを上回ることを示している。

要旨: 多目的強化学習（MORL）は、対立する目的を含む意思決定問題に対して効果的な解決策を提供します。しかし、パレートポリシー集合への高品質な近似を達成することは依然として難しく、特に連続的または高次元の状態-行動空間を持つ複雑なタスクにおいて顕著です。
本論文では、パレート上昇方向分解に基づく多目的強化学習（PA2D-MORL）法を提案します。これは、多目的問題の分解とポリシー改善のための効率的なスキームを構築し、パレートポリシー集合の優れた近似をもたらします。
提案手法は、パレート上昇方向を用いてスカラー化重みを選択し、多目的ポリシー勾配を計算します。これにより、ポリシー最適化の方向が決定され、すべての目的に対して同時の改善を保証します。
一方、複数のポリシーを進化的枠組みの下で選択的に最適化し、異なる方向からパレート前線を近似します。
さらに、パレート適応型微調整手法を適用して、パレート前線近似の密度と広がりを向上させます。
さまざまな多目的ロボット制御タスクにおける実験は、提案手法が結果の品質と安定性の双方の点で、現時点の最先端アルゴリズムを明確に上回ることを示しています。