LiveWeb-IE: オンラインWeb情報抽出のベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 新たなベンチマークである LiveWeb-IE は、静的な HTML のスナップショットではなく実際のウェブサイトを対象としてウェブ情報抽出(WIE)システムを評価し、ウェブの時間的ダイナミクスに対応する。
  • このベンチマークは信頼できる許可済みサイトと自然言語クエリを用い、テキスト・画像・ハイパーリンクをカバーし、抽出の粒度を評価するために4つの複雑さレベルを用意している。
  • 本論文は、ページ内容を視覚的に絞り込み、望む情報を特定・抽出する多段階のエージェント型フレームワーク Visual Grounding Scraper(VGS)を提案する。
  • 様々なバックボーンモデルを用いた実験により、VGS は有効で堅牢であることが示され、LiveWeb-IE が堅牢な WIE システムの実用的な基盤となり得ることが示唆される。

要旨: Web情報抽出(WIE)は、ウェブページからデータを自動的に抽出するタスクであり、さまざまなアプリケーションに高い有用性を提供します。WIEシステムの評価は従来、単一の時点でキャプチャされたHTMLスナップショットから作成されたベンチマークに依存してきました。しかし、このオフライン評価パラダイムはウェブの時系列で進化する性質を考慮できず、その結果、これらの静的ベンチマークでのパフォーマンスは動的な実世界の状況へ一般化できないことが多いです。このギャップを埋めるために、\dataset を導入します。これは、ライブウェブサイトに対して直接WIEシステムを評価するよう設計された新しいベンチマークです。信頼性が高く許可を得たウェブサイトを基に、テキスト、画像、リンクなど、さまざまなデータカテゴリの情報抽出を必要とする自然言語クエリをキュレーションします。さらに、抽出する属性の数と基数に基づいて、4つの複雑性レベルを表すようにこれらのクエリを設計し、WIEシステムの粒度の高い評価を可能にします。加えて、Visual Grounding Scraper(VGS)と呼ばれる新しい多段階のエージェント的フレームワークを提案します。これは、人間の認知プロセスを模倣し、ウェブページの内容を視覚的に絞り込むことで、目的の情報を抽出します。さまざまなバックボーンモデルにわたる広範な実験は、VGSの有効性と堅牢性を示しています。我々は、本研究が実用的で堅牢なWIEシステムを開発するための基盤を築くと信じています。