広告

Webスクレイパー:マルチモーダル大規模言語モデルを活用したインデックスとコンテンツ構造のWebスクレイピング

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Webscraperは、静的なHTMLパースが脆く、サイトごとの手作業による個別カスタマイズが必要になりがちな、動的でインタラクティブなサイトを対象とするWebスクレイピングのためのフレームワークとして紹介される。
  • このフレームワークはマルチモーダル大規模言語モデル(MLLM)を用い、自律的にWebインターフェースをナビゲートし、専門ツールを呼び出して、構造化データを抽出する。
  • Webscraperは、「インデックスとコンテンツ」アーキテクチャを持つWebサイト向けに調整された専用ツールと、構造化された5段階のプロンプト手順を適用する。
  • 6つのニュースサイトでの実験では、Webscraperの完全なセットアップにより、ベースラインのエージェント(AnthropicのComputer Use)より抽出精度が向上し、このアプローチはeコマースプラットフォームにも一般化できることが示される。

Abstract

現代のWebスクレイピングでは、静的なHTMLの解析だけでは足りない動的でインタラクティブなWebサイトが課題となっています。現在の手法はしばしば脆く、各サイトごとに手作業でのカスタマイズが必要です。これに対処するために、我々はWebスクレイパー(Webscraper)という、現代の動的なWebアプリケーションに伴う課題を扱うことを目的としたフレームワークを提案します。これは、マルチモーダル大規模言語モデル(MLLM)を活用して、インタラクティブなインターフェースを自律的にナビゲートし、専門のツールを呼び出し、従来のスクレイパーが有効でない環境で構造化データ抽出を実行します。Webscraperは、一般的な「index-and-content」アーキテクチャに従うWebサイトからデータをナビゲートして抽出するために、構造化された5段階のプロンプト手順と、独自に構築した一連のツールを利用します。我々が6つのニュースWebサイトで実施した実験では、我々のガイド用プロンプトと専門ツールの両方を備えたWebscraperの全フレームワークが、ベースラインのエージェントであるAnthropicのComputer Useに比べて抽出精度が大幅に向上することを示しました。また、このフレームワークをEC(e-commerce)プラットフォームにも適用し、汎用性を検証しました。

広告