要旨: イベント抽出は、テキストから出来事の中核となる側面を特定します。これは、緊急事態における適切な意思決定のようなタスクに不可欠な、イベントの理解と分析を支援します。したがって、自動化されたイベント抽出手法を開発する必要があります。しかし、アルゴリズム開発のための既存データセットには限界があり、クローズドドメイン環境でのイベントタイプのカバー範囲が限られていること、またオープンドメイン環境で大規模で手作業により検証されたデータセットが不足していることが挙げられます。これらの限界に対処するために、EVENT5Ws という、大規模で手作業により注釈付けされ、統計的に検証されたオープンドメインのイベント抽出データセットを作成します。データセットを構築するための体系的な注釈パイプラインを設計し、注釈の複雑さに関する経験的知見を提供します。EVENT5Ws を用いて、最先端の事前学習済み大規模言語モデルを評価し、将来の研究に向けたベンチマークを確立します。さらに、EVENT5Ws で学習したモデルが、異なる地理的文脈のデータセットに対して効果的に汎化することも示し、汎用化可能なアルゴリズムの開発に向けた可能性を示します。最後に、データセット開発の過程で得られた教訓を要約し、今後の大規模データセット開発を支援するための提言を提示します。
EVENT5Ws:文書からのオープンドメインイベント抽出のための大規模データセット
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、文書からイベントを抽出するための、大規模で手作業によるアノテーションと統計的検証を備えたオープンドメイン・データセット「EVENT5Ws」を提案します。
- 既存データセットの課題である、クローズドドメインにおけるイベント種別のカバレッジの限界、ならびにオープンドメインで大規模かつ手作業で検証されたリソース不足に対処します。
- 著者らは体系的なアノテーション用パイプラインを設計し、アノテーションの複雑性を分析することで、データセット作成の実証的な指針を提供します。
- EVENT5Wsを用いて、事前学習済みの大規模言語モデルの最先端性能をベンチマークし、EVENT5Wsで学習したモデルが異なる地理的文脈のデータにも有効に汎化することを示します。
- さらに、データセット開発で得られた学びと、将来の大規模データセット開発を支援する推奨事項もまとめています。


