VenusBench-Mobile: 能力診断を備えたモバイルGUIエージェント向けの挑戦的かつユーザー志向ベンチマーク

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本稿は、既存のモバイルGUIエージェント向けオンラインベンチマークがアプリ中心・タスクが均質で、現実のモバイル利用の多様性や不安定さを反映できていないという課題を指摘している。
  • その解決として、ユーザー意図に基づくタスク設計と、細粒度の挙動解析を可能にする能力志向のアノテーション手法を2本柱とする「VenusBench-Mobile」を提案している。
  • 最新のモバイルGUIエージェントを評価した結果、従来ベンチマークに比べて大きな性能差が見られ、同ベンチがより難しく現実的な課題を提示することが示された。
  • 失敗の主因は知覚と記憶の欠陥に偏っており、粗い評価では見えにくい問題が診断分析で明確になったほか、環境変動下では最強クラスでも成功率がほぼゼロで、脆さ(brittleness)が強調された。
  • コードとデータが公開されており、頑健な実環境展開に向けた重要な足がかりになると位置づけている。

Abstract

モバイルGUIエージェントに関する既存のオンラインベンチマークは、主としてアプリ中心かつタスクが均質である傾向が強く、現実のモバイル利用に見られる多様性や不安定さを反映できていません。そこで本研究では、ユーザー中心で現実的な条件の下で汎用モバイルGUIエージェントを評価するための、挑戦的なオンラインベンチマークであるVenusBench-Mobileを導入します。VenusBench-Mobileは、2つの中核となる評価の柱を構築します。1つ目は、現実のモバイル利用を反映したユーザー意図駆動型のタスク設計により、何を評価するかを定義すること、2つ目は、エージェントの振る舞いをきめ細かく分析するための能力志向のアノテーション方式を通じて、どのように評価するかを示すことです。最先端のモバイルGUIエージェントに対する大規模な評価の結果、先行ベンチマークに対して大きな性能差が観測されます。これは、VenusBench-Mobileが実質的により難しく、より現実的なタスクを提示しており、現在のエージェントは信頼できる実運用からは程遠いことを示しています。診断的分析により、失敗は主に知覚とメモリの欠陥によって支配されていることも明らかになりました。これらは、粗い粒度の評価によって大きく覆い隠されています。さらに、最も強力なエージェントでさえ環境の変動下では成功率がほぼゼロであり、現実的な設定に対する脆さが際立っています。これらの知見に基づき、VenusBench-MobileはモバイルGUIエージェントの堅牢な実運用に向けた重要な足がかりになると考えます。コードとデータは https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile で利用可能です。