LLMベースのスキーマ誘導による異種データソースからの行方不明者インテリジェンス抽出と検証

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Guardian Parser Packという、LLMを強化したパースおよび正規化パイプラインを提案する。これは、異種の行方不明者事件文書を、運用上のレビューや下流の空間モデリングに適した単一のスキーマ準拠形式へ変換する。
  • 複数のエンジンによるPDF抽出とOCRによるフォールバック、ソース固有のパーサ、スキーマ優先のハーモナイゼーションと検証を組み合わせる。さらに、フィールド抽出の品質を高めるための任意のLLM支援経路も用意されている。
  • 人手でアラインされた75件のサブセットにおいて、LLM支援による抽出は決定論的アプローチを大幅に上回り、F1スコアが高い(0.8664 対 0.2578)。
  • 各経路で517件のパース済みレコードにわたって、LLM支援方式は集計上の主要フィールドの完全性を改善する(96.97% 対 93.23%)。それでも初期のスキーマ検証は通過しており、バリデータ主導の修復が監査可能性の維持に役立つことを示している。
  • 決定論的パイプラインは非常に高速で(0.03秒/レコード)、LLM経路(3.95秒/レコード)に比べて大幅に短い。これは、高リスクの捜査ワークフローにおける速度と品質のトレードオフを浮き彫りにする。

要旨: 行方不明者および児童の安全に関する調査では、構造化フォーム、掲示物(バレットン風)ポスター、物語形式のWebプロフィールなど、さまざまなケース文書が用いられる。レイアウト、用語、データ品質の違いが、迅速なトリアージ、大規模な分析、検索計画のワークフローを妨げている。本論文では、複数ソースの捜査文書を、運用上のレビューおよび下流の空間モデリングに適した、統一されたスキーマ準拠の表現へと変換する、AI駆動のパースおよび正規化パイプラインであるGuardian Parser Packを提案する。提案システムは、(i) 光学的文字認識(OCR)のフォールバックを伴う複数エンジンによるPDFテキスト抽出、(ii) ルールベースのソース識別とソース固有パーサ、(iii) スキーマ先行の調和(ハーモナイズ)とバリデーション、(iv) 追加のLarge Language Model(LLM)支援による抽出経路(バリデータが導く修復および共通のジオコーディング・サービスを組み込む)を統合する。システムアーキテクチャ、主要な実装上の意思決定、および出力設計を提示し、金(正解)に整合した抽出指標と、コーパス規模の運用指標の両方を用いて性能を評価する。人手で整合させた75件のサブセットでは、LLM支援経路は決定論的比較器よりも大幅に高い抽出品質を達成した(F1 = 0.8664 vs. 0.2578)。また、各経路で517件のパース済みレコードにわたって集計すると、キーとなるフィールドの完全性も改善した(96.97ootnotesize

a
txtvs. 93.23ootnotesize )。決定論的経路は、LLM経路よりもはるかに高速であり、平均実行時間は0.03秒/レコード(LLM経路は3.95秒/レコード)だった。評価実行では、すべてのLLM出力が初期スキーマ検証を通過したため、バリデータ主導の修復は、観測された改善の寄与者というよりも組み込みの安全策として機能していた。これらの結果は、リスクの高い捜査環境において、スキーマ先行で監査可能なパイプラインの中で確率的AIを制御して利用することを支持する。