AI Navigate

ProRLエージェント: マルチターンLLMエージェントのRL訓練のための Rollout-as-a-Service(ロールアウトをサービスとして提供)

arXiv cs.AI / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • ProRL Agent は、エージェントのロールアウト全ライフサイクルを API 経由で提供する rollout-as-a-service インフラストラクチャを提案し、マルチターンLLMエージェントのスケーラブルな RL 訓練を実現します。
  • 標準化され拡張可能なサンドボックス環境を、root権限のない HPC 環境で多様なエージェント的タスクに提供し、デプロイメントと保守を容易にします。
  • このアプローチはロールアウトのオーケストレーションを訓練ループから分離し、既存の RL パイプラインにおける統合、移行、保守の課題に対処します。
  • このソリューションはオープンソースとして公開されており、NVIDIA NeMo Gym と統合され、ソフトウェアエンジニアリング、数学、STEM、コーディングタスクにおける RL 訓練で検証されています。

概要: 多ターンのLLMエージェントは、複雑で対話的なタスクを解決するためにますます重要になっており、強化学習(RL)は長期的な挙動を改善するための重要な要素です。しかし、RLのトレーニングには多数のサンドボックス化されたロールアウト軌跡を生成する必要があり、既存のインフラはしばしばロールアウトのオーケストレーションとトレーニングループを結び付け、システムの移行や保守を難しくします。ロールアウトをサービスとして提供するという理念のもと、APIサービスを通じて完全なエージェント中心のロールアウトライフサイクルを提供するスケーラブルなインフラストラクチャ ProRL Agent を紹介します。ProRL Agent は、ルートレスHPC環境でさまざまなエージェント系タスクをサポートする、標準化され拡張可能なサンドボックス環境も提供します。ソフトウェア工学、数学、STEM、およびコーディングタスクに対するRLトレーニングを通じて ProRL Agent を検証します。ProRL Agent はオープンソース化され、NVIDIA NeMo Gym の一部として統合されています。