概要: Webから構造化データを抽出することは、しばしば、手作業のヒューリスティックがもろい性質であることと、大規模言語モデル(LLM)の法外なコストとの間のトレードオフになりがちです。そこで本研究では、AXE(Adaptive X-Path Extractor)というパイプラインを提案します。これは、HTML DOMを、読むべきただのテキストの壁としてではなく、剪定(pruning)を必要とする木構造として扱うことで、このプロセスを根本から再考します。AXEは、定型文(ボイラープレート)や無関係なノードを取り除くための専用の「剪定」メカニズムを用い、その結果、高密度で凝縮された文脈を残します。これにより、非常に小型の0.6B LLMが、正確な構造化出力を生成できるようになります。モデルの出力を真に根拠づけるために、Grounded XPath Resolution(GXR)を実装し、すべての抽出が実際のソースノードに物理的に追跡可能であることを保証します。低いフットプリントにもかかわらず、AXEは最先端のゼロショット性能を達成し、SWDEデータセットでF1スコア88.1%を記録するなど、はるかに大きく、完全に学習済みの複数の代替手法を上回ります。専用のアダプタを公開することで、大規模なWeb情報抽出に向けた、実用的で費用対効果の高い道筋を提供することを目指します。私たちのコードとアダプタは https://github.com/abdo-Mansour/axetract で公開されています。
AXE:低コストのドメイン横断Web構造化情報抽出
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AXE(Adaptive X-Path Extractor)は、Webの構造化データ抽出を、構造化出力を生成する前にHTML DOMツリーから定型文(ボイラープレート)や無関係なノードを取り除く“剪定(pruning)”として捉え直すことを提案します。
- パイプラインは、高密度で根拠に基づいた文脈を凝縮することで、小型の0.6B LLMが、SWDEデータセットで最先端のゼロショット結果に匹敵する精度で、正確な抽出を行えるようにします。
- AXEは、出力が特定のソースDOMノードに追跡可能であることを保証するGrounded XPath Resolution(GXR)を追加し、純粋にヒューリスティックまたは根拠のないアプローチと比べて、信頼性と監査可能性を向上させます。
- 計算コストが低いにもかかわらず、AXEはF1スコア88.1%を報告しており、いくつかのより大規模で完全に学習された代替手法を上回ります。これにより、大規模なWeb抽出に対する費用対効果の高い道筋が示唆されます。
- 著者らは、Web情報抽出のワークロードでの実用的な導入を可能にするために、専用のアダプタとコードを公開しています。




