MobiFlow:軌跡フュージョンによる実世界モバイルエージェントのベンチマーク
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のモバイルエージェントのベンチマーク(例:AndroidWorld)がエミュレータ/システムレベルのシグナルに依存しており、成功指標を公開しないサードパーティ製アプリが多い実世界のケースを反映していないと主張する。
- 任意のサードパーティ製アプリからタスクを構築し、実際の利用条件により近い評価を行うためのモバイルエージェント評価フレームワーク「MobiFlow」を提案する。
- MobiFlowは、状態空間を圧縮し、評価中の動的な相互作用を支えるために、多軌跡フュージョンに基づく効率的なグラフ構築手法を用いる。
- 本フレームワークには、広く使われているサードパーティ製アプリ20本と、実世界のタスク240件に加えて、充実した評価指標が含まれている。
- AndroidWorldと比べて、MobiFlowは人間の判断とより整合的な評価結果を報告しており、実ワークロードに基づく将来のGUIベースモデルの学習に役立てられる。
