Odysseys:現実的な長期タスクでWebエージェントをベンチマークする

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 実際のブラウジングセッションから抽出した200件の、長期かつ複数サイトにまたがる現実的なWebタスクを、ライブなインターネット上で評価する新しいベンチマーク「Odysseys」を提案しています。
  • 既存のWebエージェント用ベンチマークが短い単一サイト課題に寄りがちであり、長期タスクの評価には二値の合否判定では不十分だと主張しています。
  • Odysseysでは課題ごとに平均6.1個の採点ルーブリックを付与し、ルーブリックベースの評価により人間の判断との一致度を高め、軌跡単位のLLM-as-a-judge指標よりもきめ細かな信号を提供するとしています。
  • 最先端の複数モデルを検証したところ、最高の成功率は44.5%にとどまり、今後の改善余地が大きいことが示されています。
  • さらに効率も評価し、Trajectory Efficiency(ステップあたりのルーブリックスコア)では最前線のエージェントでも1.15%しか達成できず、長期タスクでは「結局成功する」だけでなく「効率よく成功する」必要があると強調しています。

要旨: 既存のWebエージェントベンチマークは、最前線モデルが飽和に近づいている短い単一サイトのタスクへと、概ね収束してきました。しかし実際のWeb利用は、長い時間軸にわたる複数サイトのワークフローで構成されます。異なるドメインにまたがる製品の比較、複数のサービスにまたがる旅行計画、複数の検索クエリからの情報要約といった一般的なWebナビゲーション課題では、潜在的に数時間にも及ぶ閲覧に対して、持続的な文脈とサイト間の推論が必要になります。このような振る舞いを捉え、評価するために、Odysseysを導入します。Odysseysは、実世界でのブラウジングセッションから導出した200件の長期ホライズンWebタスクからなるベンチマークで、ライブなインターネット上で評価されています。長期ホライズンの設定では二値の合否評価は不十分であることを見出し、ルーブリックに基づく評価を導入し、各Odysseysタスクに平均6.1件の採点用ルーブリックを注釈付けします。これにより、人間との一致がより高くなり、一般に用いられている軌跡レベルのLLM-as-a-judge(LLMを判定者として用いる)評価指標よりも、よりきめ細かな信号が得られることを示します。複数の先行する最前線モデルをテストしたところ、最も強力なモデルは成功率44.5%を達成しており、今後の改善にはなお大きな余地が残されています。タスク成功にとどまらず、長期ホライズンエージェントにとって効率が第一級の関心事であると論じます。Trajectory Efficiency(軌跡効率、ルーブリックスコアをステップ数で割った指標)を導入し、最前線のエージェントでさえ1.15%しか達成できないことを見出します。これは、最終的に成功するだけでなく、効率よく成功できるエージェントが必要であることを明確に示しています。Odysseysは、オープンWeb環境における長期ホライズン熟達の重要な評価を切り出し、数時間にわたり生産的に作業しうるコンピュータ利用エージェントに向けた進歩を測定するための、現実的なベンチマークを提供します。タスク、評価スクリプト、その他の結果は https://odysseys-website.pages.dev で公開します