AXE：低コストのドメイン横断Web構造化情報抽出

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

AXE（Adaptive X-Path Extractor）は、Webの構造化データ抽出を、構造化出力を生成する前にHTML DOMツリーから定型文（ボイラープレート）や無関係なノードを取り除く“剪定（pruning）”として捉え直すことを提案します。
パイプラインは、高密度で根拠に基づいた文脈を凝縮することで、小型の0.6B LLMが、SWDEデータセットで最先端のゼロショット結果に匹敵する精度で、正確な抽出を行えるようにします。
AXEは、出力が特定のソースDOMノードに追跡可能であることを保証するGrounded XPath Resolution（GXR）を追加し、純粋にヒューリスティックまたは根拠のないアプローチと比べて、信頼性と監査可能性を向上させます。
計算コストが低いにもかかわらず、AXEはF1スコア88.1%を報告しており、いくつかのより大規模で完全に学習された代替手法を上回ります。これにより、大規模なWeb抽出に対する費用対効果の高い道筋が示唆されます。
著者らは、Web情報抽出のワークロードでの実用的な導入を可能にするために、専用のアダプタとコードを公開しています。

概要: Webから構造化データを抽出することは、しばしば、手作業のヒューリスティックがもろい性質であることと、大規模言語モデル（LLM）の法外なコストとの間のトレードオフになりがちです。そこで本研究では、AXE（Adaptive X-Path Extractor）というパイプラインを提案します。これは、HTML DOMを、読むべきただのテキストの壁としてではなく、剪定（pruning）を必要とする木構造として扱うことで、このプロセスを根本から再考します。AXEは、定型文（ボイラープレート）や無関係なノードを取り除くための専用の「剪定」メカニズムを用い、その結果、高密度で凝縮された文脈を残します。これにより、非常に小型の0.6B LLMが、正確な構造化出力を生成できるようになります。モデルの出力を真に根拠づけるために、Grounded XPath Resolution（GXR）を実装し、すべての抽出が実際のソースノードに物理的に追跡可能であることを保証します。低いフットプリントにもかかわらず、AXEは最先端のゼロショット性能を達成し、SWDEデータセットでF1スコア88.1%を記録するなど、はるかに大きく、完全に学習済みの複数の代替手法を上回ります。専用のアダプタを公開することで、大規模なWeb情報抽出に向けた、実用的で費用対効果の高い道筋を提供することを目指します。私たちのコードとアダプタは https://github.com/abdo-Mansour/axetract で公開されています。