Ego2Web:エゴセントリック動画に基づくWebエージェントベンチマーク
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この記事は、第一人称(エゴセントリック)動画の知覚とWebタスク実行をつなぐ新しいマルチモーダルWebエージェント用ベンチマーク「Ego2Web」を紹介し、従来のWebエージェントベンチマークに欠けていた物理世界での裏付け(グラウンディング)の重要な制限に対処します。
- Ego2Webは、実世界で収録したエゴセントリック動画と、視覚理解、タスク計画、Web上の対話を必要とするオンラインタスクを組み合わせ、EC(eコマース)、メディア検索、知識参照などのカテゴリをカバーします。
- データセットは、高品質で多様な「動画–タスク」ペアを作るための自動データ生成パイプラインに、人手による検証と改良を補助して構築されます。
- 評価として、著者らは「Ego2WebJudge」と呼ばれるLLMをジャッジとして用いる手法を提案し、人間の判断と約84%の一致を達成するとともに、既存の評価手法よりも優れていることを示します。
- 最先端のエージェントを用いた実験では、タスクカテゴリ全体で改善の余地が大きいことが明らかになるなど、性能は弱い結果でした。またアブレーションは、これらのタスクにおいて正確な動画理解が重要であることを強調します。



