広告

NVIDIAがAIでProRLエージェントを発表:マルチターンLLMエージェントの強化学習を大規模に実現するための、分離型ロールアウト“as-a-Service”基盤

MarkTechPost / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • NVIDIAの研究者らは、マルチターンLLMエージェントの強化学習(RL)トレーニングをスケールさせることを目的としたインフラ「ProRL AGENT」を発表した。
  • このシステムは、ロールアウトのオーケストレーションとトレーニングループを分離する「ロールアウト“as-a-Service”」アプローチを用い、ボトルネックを削減する。
  • 分離の狙いは、環境との相互作用がI/O集約的である一方、方策(ポリシー)の更新はGPU集約的であるという資源競合(コンフリクト)に対処することにある。
  • これらの関心事を切り離すことで、アーキテクチャはスループットの向上と、大規模におけるエージェント開発の加速を目指して設計されている。

NVIDIAの研究者らは、マルチターンLLMエージェントの強化学習(RL)訓練のために設計された、スケーラブルなインフラストラクチャであるProRL AGENTを導入しました。‘Rollout-as-a-Service(ロールアウトをサービスとして提供)’という思想を採用することで、このシステムはエージェントのロールアウト・オーケストレーションをトレーニングループから切り離します。このアーキテクチャ上の転換は、現在エージェント開発のボトルネックとなっている、I/O集約型の環境相互作用とGPU集約型のポリシー更新との間に内在するリソース競合に対処します。[…]

この記事はNVIDIA AI Unveils ProRL Agent: A Decoupled Rollout-as-a-Service Infrastructure for Reinforcement Learning of Multi-Turn LLM Agents at ScaleとしてMarkTechPostに最初に掲載されました。

広告