概要: Pokemon Red は、報酬がまばらで部分的に観測可能であり、風変わりな操作メカニクスを備えた長期的な JRPG です。そのため、強化学習にとって難しいベンチマークとなっています。近年の研究では、PPO エージェントが大規模な報酬設計(reward shaping)とエンジニアリングされた観測により最初の 2 つのジムを突破できることが示されていますが、実運用における学習は依然として脆弱です。エージェントはしばしば行動ループに陥ったり、メニュー連打をしたり、非生産的にさまよったりします。本論文では、PokeRL を提案します。PokeRL は、Pokemon Red における序盤のゲームタスク(プレイヤーの家から出ること、背の高い草に到達するため Pallet Town を探索すること、最初のライバル戦に勝利すること)を完了するための深層強化学習エージェントを訓練するモジュール化されたシステムです。主な貢献は、PyBoy エミュレータのための、マップをマスクするループを考慮した環境ラッパ、複数層からなるループ抑止およびスパム抑止の仕組み、そして高密度の階層型報酬設計です。私たちは、ループやスパムといった失敗モードを明示的にモデル化する実用的なシステムである PokeRL は、玩具的なベンチマークからポケモンリーグのチャンピオン級エージェントへ至るための必要な中間ステップであると主張します。コードは https://github.com/reddheeraj/PokemonRL で公開されています
PokeRL:ポケモン赤版のための強化学習
arXiv cs.LG / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ポケモン赤版の序盤タスク(家から出る、パレットタウンを探索する、最初のライバル戦に勝つなど)を完了するためのエージェントを訓練する、モジュール化された深層強化学習システム「PokeRL」を紹介する。
- PyBoyエミュレータの周りに、ループを意識した環境ラッパーを構築し、部分観測下で状態の関連性を高めるためのマップマスキングも組み込むことで、強化学習訓練における現実世界のもろさ(脆弱性)に対処することを目指す。
- PokeRLは、行動ループ、メニューのスパム、目的のない徘徊といった一般的な失敗モードを防ぐために、複数層のアンチループおよびアンチスパム機構を追加する。
- 長期的かつスパースな報酬による進捗を、従来のアプローチより学習可能にするために、密な階層報酬設計を提案する。従来は、報酬シェーピングや設計された観測への依存が大きかった。
- 著者らはPokeRLを、より能力の高いエージェントへの中間的なステップとして位置づける。ポケモンリーグのようなはるかに難しい「チャンピオン」レベルへスケールする前に、失敗モードを明示的にモデル化する必要があると主張する。




