再現されたウェブサイトを用いた安全でスケーラブルなウェブエージェント学習

arXiv cs.CL / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

VeriEnv は、実世界のウェブサイトを完全に実行可能な合成環境へクローンすることで、ライブサイトを探索する際の安全性と検証可能性の課題に対処します。
このフレームワークは言語モデルを環境クリエイターとして活用し、決定論的でプログラム的に検証可能な報酬を提供する Python SDK を公開します。これにより、ヒューリスティックな判断や LLM ベースのジャッジへの依存を減らします。
この設計は、エージェントの学習を危険な実世界の相互作用から切り離し、環境拡張によってスケーラブルな自己進化を可能にします。
ウェブエージェントのベンチマークに関する実験では、VeriEnv で訓練したエージェントが未見のウェブサイトへ一般化し、自己進化訓練を通じてサイト固有の熟達を達成し、訓練環境数の拡大から恩恵を受けることを示します。
採択後、コードとリソースは GitHub で公開される予定であり、再現性と採用の高い可能性を示唆します。

自律的なウェブエージェントの訓練は、学習元となる環境によって本質的に制限されています。実世界のウェブサイトは探索するには安全でなく、リセットが難しく、検証可能なフィードバックをほとんど提供しません。我々は VeriEnv を提案します。これは言語モデルを環境クリエイターとして扱い、実世界のウェブサイトを自動的に完全に実行可能で検証可能な合成環境へとクローンするフレームワークです。Python SDK を介して内部アクセスを制御された形で公開することで、VeriEnv はエージェントが決定論的でプログラム的に検証可能な報酬を用いて自らタスクを生成できるようにし、ヒューリスティックまたは LLM ベースのジャッジへの依存を排除します。この設計は、危険な実世界の相互作用からエージェントの学習を切り離しつつ、環境を拡張することでスケーラブルな自己進化を可能にします。ウェブエージェントのベンチマークに関する実験を通じて、VeriEnv で訓練したエージェントが未見のウェブサイトへ一般化し、自己進化的な訓練を通じてサイト固有の熟達を達成し、訓練環境数の拡大から恩恵を受けることを示します。採択され次第、コードとリソースは https://github.com/kyle8581/VeriEnv で公開されます。