要旨: 視覚言語モデルによって駆動されるモバイルエージェントは、モバイルタスクの自動化において目覚ましい能力を示しており、近年の有力モデルでは、例えばAndroidWorldで成功率が約70%に達するなど、大幅な性能向上が確認されています。 しかし、これらのシステムは学習データをクローズドに保ったままであり、タスクおよび軌道合成(trajectory synthesis)のレシピについても不透明です。 私たちは、質の高いタスク指示とエージェントの軌道を合成するオープンソースフレームワークOpenMobileを提示します。主要な構成要素は2つです: (1) 探索からスケーラブルにグローバル環境メモリを構築し、それを活用して多様で根拠のある指示を生成するタスク合成パイプライン。 (2) 軌道ロールアウトのためのポリシー切替戦略。学習モデルと専門家モデルを交互に用いることで、標準的な模倣学習(imitation learning)ではしばしば欠落している重要なエラー回復データを取り込みます。 私たちのデータで訓練されたエージェントは、3つの動的なモバイルエージェントのベンチマークにおいて競争力のある結果を達成します。とりわけ、微調整したQwen2.5-VLとQwen3-VLはAndroidWorldでそれぞれ51.7%と64.7%を達成し、既存のオープンデータ手法を大きく上回ります。 さらに、合成した指示とベンチマークのテストセットとの重なりについて透明性のある分析を行い、性能向上がベンチマークへの過剰適合ではなく、幅広い機能カバレッジによって生じていることを検証します。 データとコードはhttps://njucckevin.github.io/openmobile/で公開し、データギャップを埋め、より幅広いモバイルエージェント研究を促進します。
OpenMobile:タスクとトラジェクトリの合成でオープンなモバイルエージェントを構築する
arXiv cs.AI / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文では、視覚言語モデルによるモバイル自動化のエージェントを、タスク指示とエージェント軌跡(トラジェクトリ)を合成することで構築するオープンソースのフレームワーク「OpenMobile」を提案しています。
- OpenMobileは、探索からグローバルな環境メモリを構築し、そのメモリをもとに多様で根拠のある指示を生成する、スケーラブルなタスク合成パイプラインを用います。
- さらに、軌跡のロールアウト時に方策を切り替える戦略を提案し、学習モデルと専門家モデルを交互に用いて、通常の模倣学習で欠けがちなエラー回復データを捉えます。
- OpenMobileのデータで学習したエージェントは3つのモバイルエージェントのベンチマークで好成績を示し、微調整したQwen2.5-VLとQwen3-VLはAndroidWorldでそれぞれ51.7%と64.7%を達成し、既存のオープンデータ手法を上回ります。
- 著者らは、性能向上がベンチマークへの過学習ではなく機能カバレッジの広さに由来することを透明に分析し、コードとデータを公開して研究の促進を図っています。




