高性能強化学習環境の自動生成
arXiv cs.LG / 2026/3/13
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、汎用プロンプトテンプレート、階層的検証、および反復的なエージェント支援修復を組み合わせた再利用可能なレシピを提案し、計算コストが10ドル未満で意味的に等価な高性能RL環境を生成します。
- 5つの環境全体で3つの異なるワークフローを実証します。
- EmuRustによるPPO速度1.5xの改善と、PokeJAXが最初のGPU並列ポケモン対戦シミュレータとなること(ランダムアクション500M SPS、PPO 15.2M SPS、TypeScriptリファレンス比で22,320倍)を含みます。
- 結果は既存実装とのスループットのパリティまたは改善を示し(MJX 1.04x、Braxは同等のGPUバッチサイズで5x、Puffer Pongで42x PPO)、低オーバーヘッドのデプロイ可能なJAXポケモンTCGエンジンであるTCGJaxを紹介します。
- 階層的検証により5環境すべてで意味的等価性とゼロのsim-to-simギャップが得られ、エージェントの事前学習データの汚染対策についても論じられます。