Match or Replay: 自己模倣型近位方策最適化

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、探索性とサンプル効率の改善を目的とした自己模倣型のオンポリシー強化学習アルゴリズム（Match or Replay）を提案し、とりわけ疎な報酬下での性能向上を狙う。
過去の高リターンな状態-行動ペアを用いて方策更新を導き、報酬が密な設定では最適輸送により軌跡（トラジェクトリ）を優先する。
報酬が疎な環境では、成功した“自己との遭遇”軌跡を一様にリプレイして、より構造化された探索を促進する。
MuJoCo（報酬密）・3D Animal-AI Olympics（部分観測の疎報酬）・マルチゴールPointMazeに関する実験では、既存の自己模倣型RLベースラインよりも収束が速く、成功率が高い。
著者らは、このアプローチが強化学習における頑健な探索戦略であり、より複雑なタスクへも汎化し得ると主張する。

要旨: 強化学習（RL）エージェントは、特に報酬が疎な環境において非効率な探索に苦しむことが多いです。従来の探索戦略は、これまで成功した経験を体系的に活用できないため、学習が遅くなり、性能が最適でない状態につながりえます。そこで本研究では、過去の高報酬の状態-行動ペアを用いて方策更新を導くことで、探索とサンプル効率を高める自己模倣型のオンポリシーアルゴリズムを提案します。本手法では、密な報酬環境において最適輸送距離を用いて、最も報酬の高い軌跡に一致する状態訪問分布を優先することで、自己模倣を組み込みます。報酬が疎な環境では、構造化された探索を促すために、自己遭遇した成功軌跡を一様にリプレイします。多様な環境にわたる実験結果は、密な報酬のMuJoCo、および疎な報酬の部分観測型3D Animal-AI Olympicsや、マルチゴールのPointMazeを含め、学習効率の大幅な改善を示しています。本アプローチは、最先端の自己模倣型RLベースラインと比較して、より速い収束と著しく高い成功率を達成します。これらの結果は、RLにおける探索を強化する頑健な戦略として自己模倣が持つ可能性を示しており、より複雑な課題への適用可能性も示唆されています。