オークション方式による、変化する目的に対応するオンライン方策適応

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多目的強化学習を研究しており、同一ファミリに属する目的が実行時に現れたり消えたりする状況を扱う。変化するアクティブな目標に効率的に適応できる方策が必要となる。
各目的にそれぞれ「利己的」なローカル方策を割り当てるモジュール型フレームワークを導入し、さらに、現在の状態における切迫度に比例したビッド（入札）によって行動を選択する新しいオークションベースの協調メカニズムを提案する。
この手法は、目的が変化した際に対応するローカル方策を追加または削除することで動的な適応を可能にし、同一ファミリに属する目的についてパラメータ化された方策コピーを用意することで、実行時の高速な切り替えも実現する。
利己的ローカル方策は、問題を一般和ゲームとして言い換えることで算出される。各方策は、自身の目的を満たすことだけでなく、他の目的について推論し、調整された（キャリブレートされた）ビッドを提出することも学習しなければならない。
Atari Assault および、動的な目標を扱うグリッドワールドの経路計画タスクに関する実験では、単一の（モノリシックな）PPOで学習した方策と比べて、実質的により高い性能が示される。