大規模言語モデルを用いた多テーブル・エンティティ照合の力を引き出す
arXiv cs.CL / 2026/4/24
📰 ニュースModels & Research
要点
- 本論文は、固有識別子に依存せずに複数データソース間で同等のエンティティを同時に特定するための、多テーブル・エンティティ照合のLLMベースの枠組み「LLM4MEM」を提案しています。
- 数値属性のばらつきによって生じる意味的不整合に対し、マルチスタイルのプロンプト強化属性コーディネーション・モジュールで対応します。
- 複数ソースにまたがって候補となるエンティティ数が増えることで照合効率が悪化する問題には、埋め込みと事前マッチングを改善する推移的コンセンサス埋め込み照合モジュールを用います。
- 照合過程で混入するノイズの多いエンティティには、密度に応じたプルーニング・モジュールで品質を最適化します。
- 6つのMEMデータセットでの実験では、ベースラインに比べてF1が平均5.1%向上し、コードもGitHubで公開されています。



