MobiFlow：軌跡フュージョンによる実世界モバイルエージェントのベンチマーク

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存のモバイルエージェントのベンチマーク（例：AndroidWorld）がエミュレータ／システムレベルのシグナルに依存しており、成功指標を公開しないサードパーティ製アプリが多い実世界のケースを反映していないと主張する。
任意のサードパーティ製アプリからタスクを構築し、実際の利用条件により近い評価を行うためのモバイルエージェント評価フレームワーク「MobiFlow」を提案する。
MobiFlowは、状態空間を圧縮し、評価中の動的な相互作用を支えるために、多軌跡フュージョンに基づく効率的なグラフ構築手法を用いる。
本フレームワークには、広く使われているサードパーティ製アプリ20本と、実世界のタスク240件に加えて、充実した評価指標が含まれている。
AndroidWorldと比べて、MobiFlowは人間の判断とより整合的な評価結果を報告しており、実ワークロードに基づく将来のGUIベースモデルの学習に役立てられる。

Abstract

モバイルエージェントは、GUIの操作を通じてユーザーから割り当てられたタスクを自律的に完了できます。しかし、AndroidWorldのような既存の主流の評価ベンチマークは、システムレベルのAndroidエミュレータに接続して、システムリソースの状態に基づく評価シグナルを提供します。一方で、現実のモバイルエージェントのシナリオでは、多くのサードパーティ製アプリがタスクの成功可否を判断するためのシステムレベルAPIを公開していないため、ベンチマークと実運用の間に不一致が生じ、モデルの性能を正確に評価することが難しくなります。これらの課題に対処するため、任意のサードパーティ製アプリから得たタスクに基づく評価フレームワークであるMobiFlowを提案します。マルチトラジェクトリ融合に基づく効率的なグラフ構築アルゴリズムを用いることで、MobiFlowは状態空間を効果的に圧縮し、動的なインタラクションをサポートし、現実のサードパーティ製アプリのシナリオにより適切に対応できます。MobiFlowは広く利用されている20のサードパーティ製アプリをカバーし、強化された評価指標を備えた240の多様な実世界タスクで構成されています。AndroidWorldと比較して、MobiFlowの評価結果は人間の評価との整合性がより高く、実際の負荷がかかる環境における将来のGUIベースモデルの学習を導くことができます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/14Dailyインサイトを見る →

春割キャンペーン実施中新年度の情報収集をサポートします

日経XTECH

チャットボット向けの小型NSFWモデル

Reddit r/LocalLLaMA

看護師のためのChatGPT：記録・連絡・学習に役立つプロンプト

Dev.to

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

Dev.to

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

Dev.to

MobiFlow：軌跡フュージョンによる実世界モバイルエージェントのベンチマーク

要点

Abstract

💡 この記事が使われたインサイト

関連記事

春割キャンペーン実施中新年度の情報収集をサポートします

チャットボット向けの小型NSFWモデル

看護師のためのChatGPT：記録・連絡・学習に役立つプロンプト

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

春割キャンペーン実施中 新年度の情報収集をサポートします

チャットボット向けの小型NSFWモデル

看護師のためのChatGPT：記録・連絡・学習に役立つプロンプト

LivingrimoireでAIにストップウォッチを1行で追加した（企業は1年必要だと言うけど）

tasuki──複数のAI CLIを自動で受け渡しするAI CLIオーケストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

春割キャンペーン実施中新年度の情報収集をサポートします