RiskWebWorld:EC(eコマース)リスク管理におけるGUIエージェントのための、現実的なインタラクティブ・ベンチマーク

arXiv cs.AI / 2026/4/16

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • RiskWebWorldは、高リスクなEC(eコマース)リスク管理向けに特化した、現実的なインタラクティブ・ベンチマークとして提示される。従来の良性なコンシューマ向けWeb環境を超えた評価を目指している。
  • このベンチマークには8つのドメインから、実運用のリスク制御パイプラインに由来する1,513のタスクが含まれており、協力的でないWebサイトや環境の一部が乗っ取られている状況といった、実際の運用上の困難さをモデル化している。
  • 大規模なテストと学習を可能にするため、著者らは方策計画と環境メカニクスを分離した、Gymnasium準拠の評価インフラストラクチャを提供している。
  • 実験では大きな性能ギャップが示される。トップクラスの汎用モデルはタスク成功率49.1%に達する一方、特化したオープンウェイトのGUIモデルはほぼ全滅の失敗となっており、長期的な作業ではゼロショットのインターフェースへの適応よりもモデル規模のほうが重要であることを示唆している。
  • 提供されたインフラストラクチャを用いたエージェンティック強化学習により、オープンソース・モデルは16.2%改善し、このベンチマークが、より信頼性の高い「デジタルワーカー」を構築するためのテストベッドとして有用であることが示される。

概要: グラフィカルユーザインタフェース(GUI)エージェントはウェブ業務の自動化において強力な能力を示しますが、既存のインタラクティブ・ベンチマークは主に良性で予測可能な一般消費者環境を対象にしています。真正のeコマースにおけるリスク管理のような、高リスクで調査を伴う領域での有効性は、十分に検討されていません。このギャップを埋めるために、私たちはRiskWebWorldを提示します。これは、eコマースのリスク管理におけるGUIエージェントを評価するための、最初の高度に現実的なインタラクティブ・ベンチマークです。RiskWebWorldは、8つの主要ドメインにまたがる本番のリスク制御パイプラインから収集した1,513件のタスクを備えており、協力的でないウェブサイトにおけるリスク運用の、部分的な環境ハイジャックを含む本物の課題を捉えます。スケーラブルな評価とエージェント強化学習(RL)を支えるために、私たちはさらに、方策の計画から環境のメカニクスを切り離す、Gymnasium準拠の基盤インフラストラクチャを構築しました。多様なモデルに対する評価の結果、顕著な能力ギャップが明らかになりました。最上位の汎用モデルは成功率49.1%を達成する一方で、専用のオープンウェイトGUIモデルはほぼ全滅に近い失敗にとどまります。これは、長期の専門的タスクにおいては、現在のところファウンデーションモデルの規模が、ゼロショットのインタフェースへの適応(グラウンディング)よりも重要であることを示しています。また、エージェント強化学習を通じて、私たちのインフラが実行可能であることも実証しました。これにより、オープンソースモデルの性能が16.2%改善します。これらの結果は、RiskWebWorldを、堅牢なデジタルワーカーを開発するための実用的な試験台として位置付けます。