SOLAR-RL:セミオンラインの長期タスク割当強化学習

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GUIエージェントを強化学習で訓練する際の重要な制約を扱っており、オフラインRLは軌跡レベルの意味論を見落としがちである一方、オンラインRLはコストが高く環境を不安定化し得る点を課題として挙げています。
  • SOLAR-RLは、静的データを用いながらも大域的な軌跡の知見を取り込むセミオンラインの枠組みを提案し、既存ログから多様なロールアウト候補を再構成します。
  • 各ステップの妥当性シグナルにより最初の失敗点を検出し、その後に、目標整合的な報酬設計(reward shaping)を用いて軌跡全体の実行品質を反映する密なステップ単位の報酬を遡って割り当てます。
  • 実験では、長期のGUIナビゲーション課題においてSOLAR-RLが強力なベースラインに比べてタスク完了率と頑健性を改善しつつ、サンプル効率の良い解決を示しています。

概要: マルチモーダル大規模言語モデル(MLLM)が成熟するにつれ、GUIエージェントは静的なやり取りから複雑なナビゲーションへと進化している。動的なGUIタスクに対してMLLMエージェントを訓練するための有望なパラダイムとして強化学習(RL)が登場している一方で、その効果的な適用にはジレンマがある。標準的なオフラインRLは、多くの場合、静的なステップ単位のデータに依存しており、タスク完了や実行品質といったグローバルな軌道(トラジェクトリ)の意味論を見落としている。逆に、オンラインRLは長期的なダイナミクスを捉えるものの、相互作用コストが高く、環境の不安定さの可能性もある。このギャップを埋めるために、我々はSOLAR-RL(Semi-Online Long-horizon Assignment Reinforcement Learning)を提案する。高価なオンライン相互作用のみに依存する代わりに、本フレームワークはグローバルな軌道の洞察をオフライン学習プロセスへ直接統合する。具体的には、静的データから多様なロールアウト候補を再構成し、ステップごとの妥当性シグナルを用いて最初の失敗点を検出し、その上で、ターゲットに整合したシェーピングにより、軌道レベルの実行品質を反映するように、ステップ単位の報酬を事後的に密に割り当てる。これにより、相互作用コストなしでオンラインのフィードバックを実質的に模倣できる。大規模な実験により、SOLAR-RLは強力なベースラインと比べて、長期ホライズンのタスク完了率と頑健性を大幅に改善し、自律的なGUIナビゲーションに対するサンプル効率の高い解を提供することが示される。