OpenSanctions Pairs: LLMを用いた大規模エンティティマッチング
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- OpenSanctions Pairs データセットは、31か国にまたがる293のソースから収集された755,540件のラベル付きペアを網羅しており、多言語・跨文字の名前、ノイズのある属性、そしてコンプライアンスワークフローに典型的な集合値フィールドを特徴とします。
- ベンチマークでは、実運用のルールベース照合器(Nomenklatura RegressionV1 アルゴリズム)は、ゼロショットおよび few-shot 設定でLLMsに上回られ、GPT-4o による最大 98.95% の F1、ローカルにデプロイ可能なオープンモデル(DeepSeek-R1-Distill-Qwen-14B)による 98.23% の F1 に達します。
- DSPy MIPROv2 のプロンプト最適化は一貫したが控えめな利得を生む一方、インコンテキスト例を追加しても追加的な利益はほとんどなく、性能を低下させることもあります。
- 誤り分析は、ルールベースのシステムが過剰マッチ(偽陽性が多い)となる一方、LLMs は跨文字転写と小さな識別子/日付の不整合に苦戦していることを示しており、ブロッキング、クラスタリング、そして不確実性を考慮したレビューへの移行を示唆しています。
- 本研究は、ペアワイズマッチングの性能が実用的な天井に近づいていることを示しており、プロジェクトのコードは GitHub で公開されています。
本文: arXiv:2603.11051v1 アナウンスタイプ: cross 要旨: 実世界の国際制裁の集約と分析者の重複排除に基づいて導出した大規模なエンティティマッチングのベンチマークとして OpenSanctions Pairs を公開します。データセットには、31か国にまたがる293の異種ソースからなる755,540のラベル付きペアが含まれており、多言語・跨文字の名前、ノイズのある属性、そしてコンプライアンスワークフローに典型的な集合値フィールドを備えています。私たちは、生産的なルールベースのマッチャー(Nomenklatura RegressionV1 アルゴリズム)を、ゼロショットおよび few-shot 設定で、オープンソースおよびクローズドソースのLLMsと比較評価します。市販のLLMsは生産的なルールベースのベースラインを大幅に上回り(F1 91.33%)、最大で 98.95% F1(GPT-4o)およびローカルにデプロイ可能なオープンモデル(DeepSeek-R1-Distill-Qwen-14B)で 98.23% F1 に到達します。DSPy MIPROv2 のプロンプト最適化は一貫したが控えめな利得を生み、インコンテキストの例を追加しても追加的な利益は少なく、性能を低下させることもあります。誤り分析は補完的な失敗モードを示します:ルールベースのシステムは過剰マッチ(偽陽性が高い)となる一方、LLMs は跨文字転写と小さな識別子/日付の不整合で失敗します。これらの結果は、現状の設定でペアワイズマッチングの性能が実用的な天井に近づいていることを示しており、ブロッキング、クラスタリング、そして不確実性を考慮したレビューといったパイプライン要素への取り組みの移行を促します。コードは https://github.com/chansmi/OSINT_entity_resolution で公開されています。