MobiFlow:軌跡フュージョンによる実世界モバイルエージェントのベンチマーク

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のモバイルエージェントのベンチマーク(例:AndroidWorld)がエミュレータ/システムレベルのシグナルに依存しており、成功指標を公開しないサードパーティ製アプリが多い実世界のケースを反映していないと主張する。
  • 任意のサードパーティ製アプリからタスクを構築し、実際の利用条件により近い評価を行うためのモバイルエージェント評価フレームワーク「MobiFlow」を提案する。
  • MobiFlowは、状態空間を圧縮し、評価中の動的な相互作用を支えるために、多軌跡フュージョンに基づく効率的なグラフ構築手法を用いる。
  • 本フレームワークには、広く使われているサードパーティ製アプリ20本と、実世界のタスク240件に加えて、充実した評価指標が含まれている。
  • AndroidWorldと比べて、MobiFlowは人間の判断とより整合的な評価結果を報告しており、実ワークロードに基づく将来のGUIベースモデルの学習に役立てられる。

Abstract

モバイルエージェントは、GUIの操作を通じてユーザーから割り当てられたタスクを自律的に完了できます。しかし、AndroidWorldのような既存の主流の評価ベンチマークは、システムレベルのAndroidエミュレータに接続して、システムリソースの状態に基づく評価シグナルを提供します。一方で、現実のモバイルエージェントのシナリオでは、多くのサードパーティ製アプリがタスクの成功可否を判断するためのシステムレベルAPIを公開していないため、ベンチマークと実運用の間に不一致が生じ、モデルの性能を正確に評価することが難しくなります。これらの課題に対処するため、任意のサードパーティ製アプリから得たタスクに基づく評価フレームワークであるMobiFlowを提案します。マルチトラジェクトリ融合に基づく効率的なグラフ構築アルゴリズムを用いることで、MobiFlowは状態空間を効果的に圧縮し、動的なインタラクションをサポートし、現実のサードパーティ製アプリのシナリオにより適切に対応できます。MobiFlowは広く利用されている20のサードパーティ製アプリをカバーし、強化された評価指標を備えた240の多様な実世界タスクで構成されています。AndroidWorldと比較して、MobiFlowの評価結果は人間の評価との整合性がより高く、実際の負荷がかかる環境における将来のGUIベースモデルの学習を導くことができます。