SemEval-2026 タスク12:アブダクティブ・イベント推論:大規模言語モデルに向けた現実世界のイベント因果推論

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、証拠が豊富な状況における現実世界のイベント因果推論を前進させることを目的として、アブダクティブ・イベント推論(AER)の SemEval-2026 タスク12を発表する。
  • AERは、ターゲットとなるイベントの直接原因として最ももっともらしいものを、支持する証拠から推定しなければならない「証拠に基づく多肢選択」ベンチマークとして提示される。
  • このタスクとデータセットは、分散した証拠、間接的な背景要因、因果ではないが意味的に関連する撹乱(ディストラクタ)など、実務的な因果推論の難しさを反映するように設計されている。
  • 共有タスクでは幅広い参加が報告されており、参加者122名・投稿518件である。論文では、データセット構築のパイプラインおよび評価設定について詳述する。
  • 結果とシステム性能を示し、大規模言語モデルにおけるアブダクティブな因果推論や多文書理解に残されたギャップを浮き彫りにする。

要旨: 現実世界の出来事がなぜ起こるのかを理解することは、自然言語処理と実践的な意思決定の両方にとって重要である。しかし、証拠に富んだ状況における直接原因の推論は、十分に研究されていないままである。このギャップに対処するため、我々は SemEval-2026 Task 12: Abductive Event Reasoning(AER)を企画した。\footnote{タスクのデータは https://github.com/sooo66/semeval2026-task12-dataset.git で利用可能である} このタスクは、支持となる証拠から、対象となる出来事の最もあり得る直接原因を特定するよう求める。 我々は、AER を、現実世界の因果推論における主要な課題を捉える、証拠に基づく多肢選択式ベンチマークとして定式化する。その課題には、分散した証拠、間接的な背景要因、意味的に関連するが因果関係のない紛らわしい選択肢(ディストラクタ)が含まれる。共通タスクには 122 人の参加者が集まり、518 件の投稿が寄せられた。本論文では、タスクの定式化、データセット構築パイプライン、評価設定、およびシステム結果を提示する。AER は、現実世界の出来事に対するアブダクティブ(仮説形成的)推論のための焦点を絞ったベンチマークを提供し、因果推論やマルチドキュメント理解に関する今後の課題を明らかにする。

SemEval-2026 タスク12:アブダクティブ・イベント推論:大規模言語モデルに向けた現実世界のイベント因果推論 | AI Navigate