概要: 実世界のドキュメントからの重要情報抽出(KIE)は、レイアウト構造の大きな変動、視覚品質のばらつき、そしてタスク固有の情報要件の存在により、依然として困難です。近年の大規模マルチモーダルモデル(LMMs)は、ドキュメント画像からエンドツーエンドでKIEを実行する可能性を示しています。現実的で多様な適用シナリオにまたがって、包括的かつ体系的に評価できるようにするため、我々はLMMのKIE能力を厳密に評価する統一ベンチマークであるUNIKIE-BENCHを提案します。UNIKIE-BENCHは、相補的な2つのトラックから構成されます。すなわち、実務上のニーズを反映したシナリオ事前定義スキーマを用いる制約付きカテゴリのKIEトラックと、ドキュメント上に明示的に存在する任意の重要情報を抽出するオープンカテゴリのKIEトラックです。最先端の15のLMMに関する実験の結果、さまざまなスキーマ定義、長い尾(ロングテール)の重要項目、そして複雑なレイアウトのもとで、顕著な性能低下が見られることが明らかになりました。さらに、異なるドキュメントタイプやシナリオ間で大きな性能差も観測されました。これらの知見は、LMMベースのKIEにおける、正確な根拠づけ(grounding accuracy)とレイアウトを考慮した推論(layout-aware reasoning)に関する課題が継続していることを強調しています。すべてのコードおよびデータセットは https://github.com/NEUIR/UNIKIE-BENCH で公開されています。
UNIKIE-BENCH:視覚ドキュメントにおける重要情報抽出のための大規模マルチモーダルモデルのベンチマーク
arXiv cs.CV / 2026/4/27
💬 オピニオンSignals & Early TrendsModels & Research
要点
- UNIKIE-BENCHは、視覚ドキュメントからのKey Information Extraction(KIE)において、レイアウトの多様性・画質・タスク要件が大きく変わる現実の条件で、大規模マルチモーダルモデル(LMM)を評価するための新しい統一ベンチマークです。
- ベンチマークには2つのトラックがあり、実運用のニーズに合わせたシナリオ定義済みのスキーマで評価する「制約付きカテゴリーKIE」と、文書内に明示的に存在するあらゆる重要情報を抽出する「オープンカテゴリーKIE」を用意しています。
- 最先端のLMMを15モデル用いた実験では、スキーマ定義が変わる場合、出現頻度が低いロングテールのキー項目がある場合、そして複雑なレイアウトの文書では性能が大きく低下することが示されています。
- さらに、文書タイプやシナリオごとに性能差が大きいことが分かり、LMMベースKIEにおける信頼できるグラウンディング精度やレイアウトを考慮した推論が依然として難題であることが浮き彫りになっています。
- 論文では、再現可能な体系的評価を支えるために、コードとデータセットをGitHubで公開しています。




