NVIDIAがAIでProRLエージェントを発表：マルチターンLLMエージェントの強化学習を大規模に実現するための、分離型ロールアウト“as-a-Service”基盤

MarkTechPost / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

NVIDIAの研究者らは、マルチターンLLMエージェントの強化学習（RL）トレーニングをスケールさせることを目的としたインフラ「ProRL AGENT」を発表した。
このシステムは、ロールアウトのオーケストレーションとトレーニングループを分離する「ロールアウト“as-a-Service”」アプローチを用い、ボトルネックを削減する。
分離の狙いは、環境との相互作用がI/O集約的である一方、方策（ポリシー）の更新はGPU集約的であるという資源競合（コンフリクト）に対処することにある。
これらの関心事を切り離すことで、アーキテクチャはスループットの向上と、大規模におけるエージェント開発の加速を目指して設計されている。

NVIDIAの研究者らは、マルチターンLLMエージェントの強化学習（RL）訓練のために設計された、スケーラブルなインフラストラクチャであるProRL AGENTを導入しました。‘Rollout-as-a-Service（ロールアウトをサービスとして提供）’という思想を採用することで、このシステムはエージェントのロールアウト・オーケストレーションをトレーニングループから切り離します。このアーキテクチャ上の転換は、現在エージェント開発のボトルネックとなっている、I/O集約型の環境相互作用とGPU集約型のポリシー更新との間に内在するリソース競合に対処します。[…]

この記事はNVIDIA AI Unveils ProRL Agent: A Decoupled Rollout-as-a-Service Infrastructure for Reinforcement Learning of Multi-Turn LLM Agents at ScaleとしてMarkTechPostに最初に掲載されました。