こんにちは!コミュニティ主導の最新の研究プロジェクトを共有できてうれしいです: WebHarbor: 環境の進化に合わせて GUI エージェントを実際の Web サイトにドッキングする!
TL;DR:15 の人気 Web サイト(Amazon、GitHub、BBC News、arXiv、Booking、Hugging Face など)を、1 つの Docker イメージ内に自己完結型の Flask + SQLite アプリとしてパッケージ化し、人間が介在するコーディングエージェント(例:Claude Code または CodeX)が byte-identical な状態に各サイトを <1 秒でリセットする制御プレーンを用意しています。私たちはすぐに使える状態で、WebVoyager の全 643 タスクをサポートしています。
貢献のお願い:次の目標は 100+ の人気 Web サイトです。Online-Mind2Web(147 サイト)をすべてカバーし、その先まで拡大します。2 つのトラックがあります:
- 新しいミラーサイトを作成する(coding-agent のパイプラインを使用 → 人間が確認 → オープン PR)→ 最終論文の共著者になる
- 投稿された PR をレビューする(5 件のレビュー → 共著者)
また、あなた(あなたのコーディングエージェント)が取り組みやすいように、有用なスキルも公開しました!通常、1 日以内に新しいミラーを作成できます!貢献の詳細は Contribute Guide をご覧ください。
WebHarbor の理由: 実運用の Web 上で Web エージェントのベンチマークを回すのは悪夢です — reCAPTCHA、ジオブロック、コンテンツのドリフト、ネットワークの不安定さ、そして数か月で陳腐化するタスク。さらに、ライブ Web をリセットできないため、重い RL 訓練は現実的ではありません。Web エージェント用の、軽量で簡単にリセットでき、タスク駆動の進化的な環境が必要です。評価と訓練の両方に対応します!
関連リソース:
| Name | Link |
|---|---|
| WebHarbor プロジェクトページ | WebHarbor |
| HuggingFace データセット | ChilleD/WebHarbor |
| WebHarbor GitHub | コードリポジトリ |
| 貢献ガイド | ガイドの詳細 |
| 貢献依頼フォーム | Google フォーム |
提案や議論を歓迎します!
[link] [comments]




