高性能強化学習環境の自動生成

arXiv cs.LG / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、汎用プロンプトテンプレート、階層的検証、および反復的なエージェント支援修復を組み合わせた再利用可能なレシピを提案し、計算コストが10ドル未満で意味的に等価な高性能RL環境を生成します。
5つの環境全体で3つの異なるワークフローを実証します。
EmuRustによるPPO速度1.5xの改善と、PokeJAXが最初のGPU並列ポケモン対戦シミュレータとなること（ランダムアクション500M SPS、PPO 15.2M SPS、TypeScriptリファレンス比で22,320倍）を含みます。
結果は既存実装とのスループットのパリティまたは改善を示し（MJX 1.04x、Braxは同等のGPUバッチサイズで5x、Puffer Pongで42x PPO）、低オーバーヘッドのデプロイ可能なJAXポケモンTCGエンジンであるTCGJaxを紹介します。
階層的検証により5環境すべてで意味的等価性とゼロのsim-to-simギャップが得られ、エージェントの事前学習データの汚染対策についても論じられます。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to