NVIDIAの研究者らは、マルチターンLLMエージェントの強化学習(RL)訓練のために設計された、スケーラブルなインフラストラクチャであるProRL AGENTを導入しました。‘Rollout-as-a-Service(ロールアウトをサービスとして提供)’という思想を採用することで、このシステムはエージェントのロールアウト・オーケストレーションをトレーニングループから切り離します。このアーキテクチャ上の転換は、現在エージェント開発のボトルネックとなっている、I/O集約型の環境相互作用とGPU集約型のポリシー更新との間に内在するリソース競合に対処します。[…]
この記事はNVIDIA AI Unveils ProRL Agent: A Decoupled Rollout-as-a-Service Infrastructure for Reinforcement Learning of Multi-Turn LLM Agents at ScaleとしてMarkTechPostに最初に掲載されました。



