Abstract
オンライン強化学習(RL)は、Androidエージェントの能力を高める効果的な手法として機能します。しかし、オンライン対話を通じて学習するようにエージェントを導くことは、エミュレータの高いレイテンシと、既存のRLアルゴリズムにおけるサンプル非効率性のために、費用が非常に高くなります。現在のアプローチには、根本的な制約があることを私たちは特定します。それは、Single State Single Action(単一状態・単一行動)パラダイムです。このパラダイムでは、オンラインの片方向ロールアウトから得られる1対1の状態-行動ペアによって方策を更新する一方で、各コストの高いエミュレータ状態を十分に探索できていません。本論文では、Android Coachという新しい枠組みを提案し、学習パラダイムをSingle State Multiple Actions(単一状態・複数行動)へと移行します。これにより、エージェントは単一のオンライン状態に対して複数の行動をサンプリングし、それを活用できるようになります。さらに、行動価値を推定する批評家(クリティック)を学習することで、追加のエミュレータ・オーバーヘッドなしにこれを実現します。クリティックが信頼できるコーチとして機能することを保証するために、プロセス報酬モデルを統合し、平均化されたクリティック出力に基づくグループ単位のアドバンテージ推定器を導入します。大規模な実験により、Android Coachの有効性と効率性が示されます。AndroidLabおよびAndroidWorldにおいて、UI-TARS-1.5-7Bに対して成功率がそれぞれ7.5%および8.3%向上し、成功率を同程度に揃えた条件で、Single State Single Actionの手法であるPPOおよびGRPOよりもトレーニング効率が1.4倍高いことを達成します。