WebHarbor――実サイトをローカルに「ドック」してWebエージェント向けGUI環境を進化させる! [R]

Reddit r/MachineLearning / 2026/5/14

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • WebHarborは、15の人気ウェブサイトをFlask + SQLiteの自己完結型アプリとして単一のDockerイメージにまとめ、進化するWeb GUIエージェント環境のための再現可能なローカル“ミラー”を実現します。
  • 各ミラーサイトをバイト単位で完全に同一な状態へ1秒未満でリセットできるコントロールプレーンを備え、ライブWebで起きやすいコンテンツの変化(ドリフト)やネットワークの不安定さといった課題に対処します。
  • Claude CodeやCodeXのような人間の関与(ヒューマン・イン・ザ・ループ)を前提としたコーディングエージェントを用いてパッケージング/ミラー化を自動化し、最終的には人の確認のうえでオープンPRとして統合します。
  • WebHarborは、WebVoyagerの全643タスクを“out of the box”でサポートするとし、さらに15サイトから100+サイトへ拡大し、Online-Mind2Webの147サイトもカバーすることを目標に貢献者を募集しています。
  • 新たに公開されたリリースには、コントリビュータがミラーを素早く作成できるスキル/ツール(通常1日程度)に加え、Hugging FaceのデータセットやGitHubリポジトリへのリンクも含まれています。

こんにちは!コミュニティ主導の最新の研究プロジェクトを共有できてうれしいです: WebHarbor: 環境の進化に合わせて GUI エージェントを実際の Web サイトにドッキングする!

TL;DR:15 の人気 Web サイト(Amazon、GitHub、BBC News、arXiv、Booking、Hugging Face など)を、1 つの Docker イメージ内に自己完結型の Flask + SQLite アプリとしてパッケージ化し、人間が介在するコーディングエージェント(例:Claude Code または CodeX)が byte-identical な状態に各サイトを <1 秒でリセットする制御プレーンを用意しています。私たちはすぐに使える状態で、WebVoyager の全 643 タスクをサポートしています。

貢献のお願い:次の目標は 100+ の人気 Web サイトです。Online-Mind2Web(147 サイト)をすべてカバーし、その先まで拡大します。2 つのトラックがあります:

  • 新しいミラーサイトを作成する(coding-agent のパイプラインを使用 → 人間が確認 → オープン PR)→ 最終論文の共著者になる
  • 投稿された PR をレビューする(5 件のレビュー → 共著者)

また、あなた(あなたのコーディングエージェント)が取り組みやすいように、有用なスキルも公開しました!通常、1 日以内に新しいミラーを作成できます!貢献の詳細は Contribute Guide をご覧ください。

WebHarbor の理由: 実運用の Web 上で Web エージェントのベンチマークを回すのは悪夢です — reCAPTCHA、ジオブロック、コンテンツのドリフト、ネットワークの不安定さ、そして数か月で陳腐化するタスク。さらに、ライブ Web をリセットできないため、重い RL 訓練は現実的ではありません。Web エージェント用の、軽量で簡単にリセットでき、タスク駆動の進化的な環境が必要です。評価と訓練の両方に対応します!

関連リソース:

Name Link
WebHarbor プロジェクトページ WebHarbor
HuggingFace データセット ChilleD/WebHarbor
WebHarbor GitHub コードリポジトリ
貢献ガイド ガイドの詳細
貢献依頼フォーム Google フォーム

提案や議論を歓迎します!

/u/ArtichokeHelpful7462 により投稿
[link] [comments]