概要: イベント抽出は、イベント理解と分析に不可欠である。これは、文書要約や緊急事態における意思決定などのタスクを支える。 しかし、既存のイベント抽出手法には限界がある:(1) 閉領域アルゴリズムはあらかじめ定義されたイベント種別に制約されるため、未知の種別へ一般化することはほとんどなく、また (2) 制約のないイベント種別を扱えるオープン領域のイベント抽出アルゴリズムは、高度な能力を備えた大規模言語モデル(LLM)の可能性を、これまで大きく見落としてきた。さらに、それらは、効果的なイベント抽出に不可欠な、文書レベルの文脈・構造・意味に基づく推論を明示的にモデル化していない。これは LLM にとっても重要である一方で、「途中で失われる(lost-in-the-middle)」現象や注意の希釈により困難が残っている。これらの限界に対処するため、我々はマルチモーダルなオープン領域イベント抽出である MODEE を提案する。MODEE は、文書レベルの推論をモデル化するために、グラフに基づく学習と LLM からのテキストに基づく表現を組み合わせる、新しいオープン領域イベント抽出の手法である。大規模データセットに対する実験的評価により、MODEE は最先端のオープン領域イベント抽出手法を上回ることが示され、さらに、閉領域イベント抽出にも一般化でき、既存のアルゴリズムを上回ることが可能である。
文書からのオープンドメイン・イベント抽出に向けた、マルチモーダル(テキスト+グラフ)アプローチ
arXiv cs.CL / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、グラフベース学習とLLMに基づくテキスト表現を組み合わせた、オープンドメイン・イベント抽出手法MODEEを提案している。
- 既存手法の課題(未見のイベント型への一般化の難しさ等)を解決しつつ、LLMが苦手とする文書レベルの推論の困難さにも対処することを目的としている。
- MODEEは、文書レベルの文脈・構造・意味的関係を明示的にモデル化し、lost-in-the-middleや注意の希薄化といった問題を狙い撃ちで扱う。
- 大規模データセットでの実験結果では、MODEEが既存の最先端オープンドメイン・イベント抽出手法を上回ることが示された。
- さらに、この手法はクローズドドメインのイベント抽出にも転用でき、既存アルゴリズムより優れると報告されている。



