UI-Voyager：失敗した経験から学習する自己進化型GUIエージェント

arXiv cs.LG / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長いホライズンかつ報酬が疎なAndroidのGUIタスクにおいて、失敗から効率的に学習するための2段階の自律モバイルGUIエージェント「UI-Voyager」を提案する。
第1段階では、Rejection Fine-Tuning（RFT）を用いて自律ループ内でデータとモデルを継続的に共同進化させ、人手による注釈への依存を低減する。
第2段階では、Group Relative Self-Distillation（GRSD）を適用し、グループのロールアウトにまたがって重要な分岐点（フォークポイント）を特定することで、成功した軌跡から高密度のステップ単位の教師信号を生成する。
AndroidWorldでの実験では、4Bモデルが81.0%のPass@1成功率に到達し、多くの近年のベースラインを上回り、人間レベルの性能を超える。
アブレーション研究およびケース分析により、GRSDが曖昧な結果のもとで学習信号の質とクレジット割り当てを改善する有効性が支持される。

日経XTECH

Mistral AI Blog

Dev.to

Dev.to

Dev.to