一般化ポリシー改善と差分報酬によるアドホック・チームにおけるゼロショット協調

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事前の適応なしに、これまで見たことのない相手チームメイトと協調しなければならないエージェントを想定した、アドホックなマルチエージェント・チームにおけるゼロショット協調を扱う。
既存の複数の事前学習済みポリシーを活用し、より効率的なチーム間の知識移転を実現するために、一般化ポリシー改善と差分報酬を用いる新しいアプローチを提案する。
提案手法であるGPAT（Generalized Policy improvement for Ad hoc Teaming）は、協調的な採餌、捕食-被食、Overcookedの3つのシミュレーション領域で評価され、新しいチームへの移転に成功することを示す。
著者らはさらに、実世界のマルチロボット環境においてGPATを検証し、シミュレーションを超えた実用的な有効性を示している。

Abstract

現実世界のマルチエージェントシステムでは、アドホックなチーミングが必要になる場合があります。そこでは、エージェントが、事前に見たことのない他のチームメイトと連携し、ゼロショット方式でタスクを解決しなければなりません。従来の研究では多くの場合、新しいチームメイトの推定モデルに基づいて事前学習済み方策を選択するか、潜在的なチームメイトに対して頑健な単一の方策を事前学習していました。代わりに本研究では、ゼロショット転移の設定において、すべての事前学習済み方策を活用することを提案します。この問題をアドホック・マルチエージェントのマルコフ決定過程として定式化し、異なるチーム間での知識転移を効率的かつ効果的に行うための2つの重要なアイデア、一般化された方策改善（generalized policy improvement）と差分報酬（difference rewards）を用いる解法を提示します。実験により、提案手法であるアドホック・チーミングのための一般化された方策改善（Generalized Policy improvement for Ad hoc Teaming: GPAT）が、3つのシミュレート環境（協調的な採餌、捕食者-被食者、Overcooked）において新しいチームへのゼロショット転移を成功裏に可能にすることを実証します。また、実世界のマルチロボット環境でも本手法を示します。