Ego2Web:エゴセントリック動画に基づくWebエージェントベンチマーク

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、第一人称(エゴセントリック)動画の知覚とWebタスク実行をつなぐ新しいマルチモーダルWebエージェント用ベンチマーク「Ego2Web」を紹介し、従来のWebエージェントベンチマークに欠けていた物理世界での裏付け(グラウンディング)の重要な制限に対処します。
  • Ego2Webは、実世界で収録したエゴセントリック動画と、視覚理解、タスク計画、Web上の対話を必要とするオンラインタスクを組み合わせ、EC(eコマース)、メディア検索、知識参照などのカテゴリをカバーします。
  • データセットは、高品質で多様な「動画–タスク」ペアを作るための自動データ生成パイプラインに、人手による検証と改良を補助して構築されます。
  • 評価として、著者らは「Ego2WebJudge」と呼ばれるLLMをジャッジとして用いる手法を提案し、人間の判断と約84%の一致を達成するとともに、既存の評価手法よりも優れていることを示します。
  • 最先端のエージェントを用いた実験では、タスクカテゴリ全体で改善の余地が大きいことが明らかになるなど、性能は弱い結果でした。またアブレーションは、これらのタスクにおいて正確な動画理解が重要であることを強調します。

Abstract

マルチモーダルAIエージェントは、オンラインでのウェブ実行を含む複雑な現実世界のワークフローを自動化しつつあります。しかし、現在のウェブエージェントのベンチマークには重大な制限があります。それは、ユーザーの現実世界の物理的な環境に対する現実世界での位置づけ(グラウンディング)を欠いたまま、ウェブ上の対話と知覚だけに完全に焦点を当てている点です。この制限により、重要なシナリオでの評価ができません。例えば、エージェントがユーザーの周囲にある物体を認識するために自己中心的(egocentric)な視覚知覚(たとえばARグラスを介して)を用い、その後オンライン上で関連するタスクを完了させる必要がある場合などです。このギャップに対処するために、私たちは、自己中心的なビデオ知覚とウェブエージェント実行を橋渡しすることを目的に設計された最初のベンチマークであるEgo2Webを導入します。Ego2Webは、現実世界の一人称ビデオ記録を、視覚理解、ウェブタスク計画、およびオンライン環境での相互作用を必要とし、成功裏に完了するためのウェブタスクと組み合わせます。私たちは、eコマース、メディア検索、知識参照など、多様なウェブタスクの種類にわたって、適切に構築された高品質なビデオ—タスクのペアを厳選するために、自動データ生成パイプラインと人手による検証および改良を組み合わせて利用します。ベンチマークにおける正確かつスケーラブルな評価を可能にするために、私たちは、LLM-as-a-Judgeによる新しい自動評価手法であるEgo2WebJudgeも開発します。これは、人間の判断と約84%の一致を達成しており、既存の評価手法よりも大幅に高い水準です。私たちのEgo2Webに対して多様なSoTAエージェントで実験した結果、その性能は弱く、すべてのタスクカテゴリにわたって大きな改善余地があることが示されました。また、タスク設計に関する包括的なアブレーションスタディも実施し、提案タスクにおける正確なビデオ理解の必要性と、現在のエージェントの限界を明らかにします。Ego2Webが、物理世界とデジタル世界の双方にまたがって、シームレスに「見る・理解する・行動する」真に能力のあるAIアシスタントを開発するための重要な新しいリソースになることを期待しています。