教師なしマルチモーダル・エンティティリンキングのためのマルチ視点エビデンス統合と推論

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、インスタンス中心の信号だけに最適化するのではなく、LLMを用いたマルチ視点のエビデンス統合と推論によって教師なしマルチモーダル・エンティティリンキング（MEL）を行うMSR-MELを提案する。
2段階の設計として、オフラインのエビデンス統合では、インスタンス中心のマルチモーダル情報、グラフで近傍情報を集約するグループレベルのエビデンス、文字列の重なりに基づくレキシカルエビデンス、単純な要約統計に基づく統計エビデンスなどを構築する。
グループレベルのエビデンスでは、LLM拡張の文脈化グラフを作成し、非対称の教師—生徒グラフニューラルネットワークでモダリティをアラインして、近傍情報間の相互依存を捉える。
オンライン段階では、LLMを推論モジュールとして用い、複数の視点のエビデンス間の相関や意味を分析して、教師なしでエンティティリンキングのための有効なランキング戦略を導出する。
代表的なMELベンチマークでの実験により、MSR-MELは既存の最先端の教師なし手法を一貫して上回り、ソースコードも公開されている。

要旨: マルチモーダル・エンティティリンキング（MEL）は、あいまいな言及を多様なモダリティに基づいて知識ベース内のマルチモーダル・エンティティへ対応付ける、データ管理における基本的な課題である。しかし、既存の多くのMEL手法は主としてインスタンス中心の特徴やエビデンスの最適化に焦点を当てており、より広い形のエビデンスや、それらの複雑な相互依存関係については十分に調査されていない。本研究は、人間の専門家による意思決定プロセスが多視点の判断に依存しているという観察に動機づけられ、教師なしMELのための大規模言語モデル（LLMs）を用いたマルチ視点エビデンス統合・推論フレームワークであるMSR-MELを提案する。具体的には、次の2段階の枠組みを採用する。（1）オフラインのマルチ視点エビデンス統合は、包括的なエビデンス集合を構築する。これには、言及とエンティティのインスタンス中心のマルチモーダル情報を捉えるインスタンス中心のエビデンス、近傍情報を集約するグループレベルのエビデンス、文字列の重なり比に基づく語彙エビデンス、単純な要約統計量に基づく統計エビデンスが含まれる。我々の枠組みの中核となる貢献は、グラフによって重要な近傍情報を効果的に集約するグループレベル・エビデンスの統合である。まず、LLM強化された文脈化グラフを構築する。その後、非対称な教師—生徒グラフニューラルネットワークにより、異なるモダリティを共同で整合させる。（2）オンラインのマルチ視点エビデンス推論では、推論モジュールとしてLLMの力を活用し、複数視点のエビデンスの相関と意味論を分析することで、教師なしで正確なエンティティリンキングを行うための効果的なランキング戦略を導出する。広く用いられているMELベンチマークに対する大規模な実験により、MSR-MELが一貫して最先端の教師なし手法を上回ることが示されている。本論文のソースコードは次の場所で公開されていた: https://anonymous.4open.science/r/MSR-MEL-C21E/