OpenClaw-RL: 話すだけで任意のエージェントを訓練する

arXiv cs.CL / 2026/3/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

OpenClaw-RL は、次状態信号（ユーザーの返信、ツールの出力、GUIの状態変化）から学習する、ライブでオンラインの強化学習フレームワークを導入します。これらを別個のトレーニング問題として扱うのではありません。
複数の相互作用モダリティを統合します—個人対話、端末実行、GUI操作、SWEタスク、およびツール呼び出しの痕跡—同じポリシーのための単一の非同期トレーニングループへ。
フレームワークは PRM ジャッジを介した評価信号と、Hindsight-Guided On-Policy Distillation（OPD）を介した指示信号を用いて、スカラー報酬とタスク関連の指導の両方を提供します。
次状態からテキストのヒントを抽出して教師コンテキストを充実させ、単純なスカラー報酬を超えるトークンレベルの指向性監督を提供します。
非同期設計により、モデルはライブリクエストを処理し、PRM ジャッジは継続的な相互作用を審査し、トレーナーは同時にポリシーを更新します。協調オーバーヘッドゼロで、端末、GUI、SWE、ツール呼び出し設定全体でスケーラブルな RL を可能にします（コードあり）。

要旨: すべてのエージェントの相互作用は次状態信号を生成します。すなわち、各アクションに続くユーザーの返信、ツール出力、端末や GUI の状態変化ですが、既存のエージェント RL システムはそれをライブのオンライン学習ソースとして回収していません。我々は OpenClaw-RL を提示します。これは次状態信号が普遍的であり、ポリシーはこれらすべてから同時に学習できる、という単純な観察に基づくフレームワークです。個人の対話、端末実行、GUI 操作、ソフトウェア工学（SWE）タスク、ツール呼び出しの痕跡は別個のトレーニング問題ではありません。すべては、同じループ内で同じポリシーを訓練するために使用できる相互作用です。次状態信号には2つの情報形態が含まれます：評価信号は、アクションがどれほどうまく機能したかを示し、PRM ジャッジを介してスカラー報酬として抽出されます；指示信号は、アクションがどうあるべきだったかを示し、後知恵誘導オンポリシー蒸留（OPD）によって回収されます。次状態からテキストヒントを抽出して教師コンテキストを強化し、単純なスカラー報酬を超えるトークンレベルの指向性優位性の監督を提供します。非同期設計のため、モデルはライブリクエストを処理し、PRM ジャッジは継続中の相互作用を審査し、トレーナーは同時にポリシーを更新します。個人エージェントに適用すると、OpenClaw-RL は利用されるだけでエージェントを改善し、ユーザーの再問い合わせ、訂正、および明示的なフィードバックから対話信号を回収します。一般エージェントに適用すると、同じインフラは端末、GUI、SWE、ツール呼び出し設定間でスケーラブルな RL をサポートし、処理報酬の有用性も示します。コード: https://github.com/Gen-Verse/OpenClaw-RL

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

OpenClaw-RL: 話すだけで任意のエージェントを訓練する

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも