AI Navigate

高性能強化学習環境の自動生成

arXiv cs.LG / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、汎用プロンプトテンプレート、階層的検証、および反復的なエージェント支援修復を組み合わせた再利用可能なレシピを提案し、計算コストが10ドル未満で意味的に等価な高性能RL環境を生成します。
  • 5つの環境全体で3つの異なるワークフローを実証します。
  • EmuRustによるPPO速度1.5xの改善と、PokeJAXが最初のGPU並列ポケモン対戦シミュレータとなること(ランダムアクション500M SPS、PPO 15.2M SPS、TypeScriptリファレンス比で22,320倍)を含みます。
  • 結果は既存実装とのスループットのパリティまたは改善を示し(MJX 1.04x、Braxは同等のGPUバッチサイズで5x、Puffer Pongで42x PPO)、低オーバーヘッドのデプロイ可能なJAXポケモンTCGエンジンであるTCGJaxを紹介します。
  • 階層的検証により5環境すべてで意味的等価性とゼロのsim-to-simギャップが得られ、エージェントの事前学習データの汚染対策についても論じられます。