VenusBench-Mobile: 能力診断を備えたモバイルGUIエージェント向けの挑戦的かつユーザー志向ベンチマーク
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本稿は、既存のモバイルGUIエージェント向けオンラインベンチマークがアプリ中心・タスクが均質で、現実のモバイル利用の多様性や不安定さを反映できていないという課題を指摘している。
- その解決として、ユーザー意図に基づくタスク設計と、細粒度の挙動解析を可能にする能力志向のアノテーション手法を2本柱とする「VenusBench-Mobile」を提案している。
- 最新のモバイルGUIエージェントを評価した結果、従来ベンチマークに比べて大きな性能差が見られ、同ベンチがより難しく現実的な課題を提示することが示された。
- 失敗の主因は知覚と記憶の欠陥に偏っており、粗い評価では見えにくい問題が診断分析で明確になったほか、環境変動下では最強クラスでも成功率がほぼゼロで、脆さ(brittleness)が強調された。
- コードとデータが公開されており、頑健な実環境展開に向けた重要な足がかりになると位置づけている。




