AI Navigate

OpenClaw-RL: 話すだけで任意のエージェントを訓練する

arXiv cs.CL / 2026/3/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OpenClaw-RL は、次状態信号(ユーザーの返信、ツールの出力、GUIの状態変化)から学習する、ライブでオンラインの強化学習フレームワークを導入します。これらを別個のトレーニング問題として扱うのではありません。
  • 複数の相互作用モダリティを統合します—個人対話、端末実行、GUI操作、SWEタスク、およびツール呼び出しの痕跡—同じポリシーのための単一の非同期トレーニングループへ。
  • フレームワークは PRM ジャッジを介した評価信号と、Hindsight-Guided On-Policy Distillation(OPD)を介した指示信号を用いて、スカラー報酬とタスク関連の指導の両方を提供します。
  • 次状態からテキストのヒントを抽出して教師コンテキストを充実させ、単純なスカラー報酬を超えるトークンレベルの指向性監督を提供します。
  • 非同期設計により、モデルはライブリクエストを処理し、PRM ジャッジは継続的な相互作用を審査し、トレーナーは同時にポリシーを更新します。協調オーバーヘッドゼロで、端末、GUI、SWE、ツール呼び出し設定全体でスケーラブルな RL を可能にします(コードあり)。
要旨: すべてのエージェントの相互作用は次状態信号を生成します。すなわち、各アクションに続くユーザーの返信、ツール出力、端末や GUI の状態変化ですが、既存のエージェント RL システムはそれをライブのオンライン学習ソースとして回収していません。我々は OpenClaw-RL を提示します。これは次状態信号が普遍的であり、ポリシーはこれらすべてから同時に学習できる、という単純な観察に基づくフレームワークです。個人の対話、端末実行、GUI 操作、ソフトウェア工学(SWE)タスク、ツール呼び出しの痕跡は別個のトレーニング問題ではありません。すべては、同じループ内で同じポリシーを訓練するために使用できる相互作用です。次状態信号には2つの情報形態が含まれます:評価信号は、アクションがどれほどうまく機能したかを示し、PRM ジャッジを介してスカラー報酬として抽出されます;指示信号は、アクションがどうあるべきだったかを示し、後知恵誘導オンポリシー蒸留(OPD)によって回収されます。次状態からテキストヒントを抽出して教師コンテキストを強化し、単純なスカラー報酬を超えるトークンレベルの指向性優位性の監督を提供します。非同期設計のため、モデルはライブリクエストを処理し、PRM ジャッジは継続中の相互作用を審査し、トレーナーは同時にポリシーを更新します。個人エージェントに適用すると、OpenClaw-RL は利用されるだけでエージェントを改善し、ユーザーの再問い合わせ、訂正、および明示的なフィードバックから対話信号を回収します。一般エージェントに適用すると、同じインフラは端末、GUI、SWE、ツール呼び出し設定間でスケーラブルな RL をサポートし、処理報酬の有用性も示します。コード: https://github.com/Gen-Verse/OpenClaw-RL