大規模言語モデルを用いた多テーブル・エンティティ照合の力を引き出す

arXiv cs.CL / 2026/4/24

📰 ニュースModels & Research

要点

  • 本論文は、固有識別子に依存せずに複数データソース間で同等のエンティティを同時に特定するための、多テーブル・エンティティ照合のLLMベースの枠組み「LLM4MEM」を提案しています。
  • 数値属性のばらつきによって生じる意味的不整合に対し、マルチスタイルのプロンプト強化属性コーディネーション・モジュールで対応します。
  • 複数ソースにまたがって候補となるエンティティ数が増えることで照合効率が悪化する問題には、埋め込みと事前マッチングを改善する推移的コンセンサス埋め込み照合モジュールを用います。
  • 照合過程で混入するノイズの多いエンティティには、密度に応じたプルーニング・モジュールで品質を最適化します。
  • 6つのMEMデータセットでの実験では、ベースラインに比べてF1が平均5.1%向上し、コードもGitHubで公開されています。

Abstract

多テーブル実体マッチング(MEM)は、一意の識別子のない状況で、複数のデータソースにまたがって同等の実体を同時に特定できるようにすることで、デュアルテーブル手法の限界を解決します。しかし、事前学習済み言語モデルに依存する既存手法は、数値属性の変動により生じる意味の不整合を扱うのが難しいという課題があります。大規模言語モデル(LLM)の強力な言語理解能力に着想を得て、本研究では多テーブル実体マッチングのための新しいLLMベースの枠組み、LLM4MEMを提案します。具体的には、まず、意味の不整合に対処するために、多スタイルのプロンプト強化LLM属性協調モジュールを提案します。次に、複数のデータソースによってもたらされる実体数の急増に起因するマッチング効率の問題を緩和するために、実体埋め込みおよび事前マッチングの問題に取り組む推移的コンセンサス埋め込みマッチングモジュールを開発します。最後に、マッチング処理中に発生するノイズの多い実体の問題に対処するために、多テーブル実体マッチングの品質を最適化する密度認識プルーニングモジュールを導入します。6つのMEMデータセットで大規模な実験を行ったところ、本モデルはベースラインモデルと比較してF1で平均5.1%向上することが示されました。コードは https://github.com/Ymeki/LLM4MEM で公開しています。