AI Navigate

LED: 文書分析におけるレイアウト誤検出を評価するベンチマーク

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LEDは、IoUやmAPといった表層的な精度指標を超えた構造的推論を評価する新しい文書レイアウト分析のベンチマークである。
  • 欠落(Missing)、ハルシネーション(Hallucination)、サイズエラー(Size Error)、分割(Split)、結合(Merge)、重なり(Overlap)、重複(Duplicate)、誤分類(Misclassification)の8種類の誤差タイプを定義し、これらの誤差を現実的にシミュレートするためのルールと注入アルゴリズムを提供する。
  • LEDデータセットと3つの評価タスク(文書レベルの誤差検出、文書レベルの誤差タイプ分類、要素レベルの誤差タイプ分類)により、モデルの理解度を細かく評価できる。
  • 実験では、最先端のマルチモーダルモデルがモダリティとアーキテクチャを横断して弱点を露呈することを示しており、LEDを頑健性の説明可能な診断ツールとして浮き彫りにしている。
  • 総じて、LEDは文書理解モデルの構造的頑健性と推論能力を診断するための、統一され説明可能なベンチマークを提供する。

要約: 最近の大規模言語モデル(LLMs)と大規模マルチモーダルモデル(LMMs)の進展により、文書レイアウト解析(DLA)は改善されましたが、領域の統合、分割、欠落といった構造的な誤りは依然として持続しています。従来のオーバーラップベースの指標(例:IoU、mAP)は、そのような論理的不整合を捉えきれません。この制限を克服するために、Layout Error Detection(LED)と呼ばれる、表面的な精度を超えたDLA予測の構造的推論を評価するベンチマークを提案します。LEDは、8つの標準化された誤りタイプ(Missing、Hallucination、Size Error、Split、Merge、Overlap、Duplicate、Misclassification)を定義し、現実的な誤りシミュレーションのための定量的ルールと注入アルゴリズムを提供します。これらの定義を用いて、LED-Datasetを構築し、以下の3つの評価タスクを設計します:文書レベルの誤り検出、文書レベルの誤りタイプ分類、要素レベルの誤りタイプ分類。最先端のマルチモーダルモデルを用いた実験は、LEDが構造的理解の細粒度で解釈可能な評価を可能にすることを示し、モダリティとアーキテクチャ全体にわたる明確な弱点を明らかにします。全体として、LEDは文書理解モデルの構造的堅牢性と推論能力を診断する、統一され説明可能なベンチマークを確立します。