概要: 多ターンのLLMエージェントは、複雑で対話的なタスクを解決するためにますます重要になっており、強化学習(RL)は長期的な挙動を改善するための重要な要素です。しかし、RLのトレーニングには多数のサンドボックス化されたロールアウト軌跡を生成する必要があり、既存のインフラはしばしばロールアウトのオーケストレーションとトレーニングループを結び付け、システムの移行や保守を難しくします。ロールアウトをサービスとして提供するという理念のもと、APIサービスを通じて完全なエージェント中心のロールアウトライフサイクルを提供するスケーラブルなインフラストラクチャ ProRL Agent を紹介します。ProRL Agent は、ルートレスHPC環境でさまざまなエージェント系タスクをサポートする、標準化され拡張可能なサンドボックス環境も提供します。ソフトウェア工学、数学、STEM、およびコーディングタスクに対するRLトレーニングを通じて ProRL Agent を検証します。ProRL Agent はオープンソース化され、NVIDIA NeMo Gym の一部として統合されています。
ProRLエージェント: マルチターンLLMエージェントのRL訓練のための Rollout-as-a-Service(ロールアウトをサービスとして提供)
arXiv cs.AI / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage
要点
- ProRL Agent は、エージェントのロールアウト全ライフサイクルを API 経由で提供する rollout-as-a-service インフラストラクチャを提案し、マルチターンLLMエージェントのスケーラブルな RL 訓練を実現します。
- 標準化され拡張可能なサンドボックス環境を、root権限のない HPC 環境で多様なエージェント的タスクに提供し、デプロイメントと保守を容易にします。
- このアプローチはロールアウトのオーケストレーションを訓練ループから分離し、既存の RL パイプラインにおける統合、移行、保守の課題に対処します。
- このソリューションはオープンソースとして公開されており、NVIDIA NeMo Gym と統合され、ソフトウェアエンジニアリング、数学、STEM、コーディングタスクにおける RL 訓練で検証されています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to
2026年版:AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法
Dev.to