Androidコーチ：単一状態複数アクションによるオンラインエージェント型トレーニング効率の改善

arXiv cs.LG / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Androidエージェントに対するオンライン強化学習の高コストに取り組み、エミュレータの遅延と限られた探索によって、従来の「単一状態・単一アクション」トレーニング・パラダイムの非効率性が際立つ点を強調している。

Abstract

オンライン強化学習（RL）は、Androidエージェントの能力を高める効果的な手法として機能します。しかし、オンライン対話を通じて学習するようにエージェントを導くことは、エミュレータの高いレイテンシと、既存のRLアルゴリズムにおけるサンプル非効率性のために、費用が非常に高くなります。現在のアプローチには、根本的な制約があることを私たちは特定します。それは、Single State Single Action（単一状態・単一行動）パラダイムです。このパラダイムでは、オンラインの片方向ロールアウトから得られる1対1の状態-行動ペアによって方策を更新する一方で、各コストの高いエミュレータ状態を十分に探索できていません。本論文では、Android Coachという新しい枠組みを提案し、学習パラダイムをSingle State Multiple Actions（単一状態・複数行動）へと移行します。これにより、エージェントは単一のオンライン状態に対して複数の行動をサンプリングし、それを活用できるようになります。さらに、行動価値を推定する批評家（クリティック）を学習することで、追加のエミュレータ・オーバーヘッドなしにこれを実現します。クリティックが信頼できるコーチとして機能することを保証するために、プロセス報酬モデルを統合し、平均化されたクリティック出力に基づくグループ単位のアドバンテージ推定器を導入します。大規模な実験により、Android Coachの有効性と効率性が示されます。AndroidLabおよびAndroidWorldにおいて、UI-TARS-1.5-7Bに対して成功率がそれぞれ7.5%および8.3%向上し、成功率を同程度に揃えた条件で、Single State Single Actionの手法であるPPOおよびGRPOよりもトレーニング効率が1.4倍高いことを達成します。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

Androidコーチ：単一状態複数アクションによるオンラインエージェント型トレーニング効率の改善

要点

Abstract

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer