SemEval-2026 タスク4：物語の類似性と物語表現学習

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

SemEval-2026 タスク4（NSNRL）は、アンカーストーリーに対して2つの候補ストーリーがどちらがより似ているかを判断する二値分類として、物語の類似性を定義・運用しています。
主催者は、人間の直感的な判断と整合しつつ、物語理論にも適合する新しい「物語の類似性」の定義を提案しています。
1,000件超のストーリー要約トリプルからなるデータセットを構築し、各類似度判断は複数アノテータの合意に基づいてラベル付けされています。
2つのトラックでは、トリプルベース分類の上位システムの多くにLLMアンサンブルが見られ、埋め込み系では事前・事後処理を伴う事前学習埋め込みモデルが、独自の微調整ソリューションと同程度の性能を示しています。
タスクWebサイト上の結果可視化（埋め込みの可視化やチーム別の個別分類結果）により、両トラックで自動化システムのさらなる改善余地が示唆されています。

概要: 本稿では、物語の類似性と物語の表現学習に関する共有タスク――NSNRL（「nass-na-rel」と発音）――を提示する。本タスクでは、物語の類似性を2値分類問題として実装する。すなわち、2つの物語のうちどちらがアンカーストーリーにより類似しているかを判定する。本稿では、物語理論の双方と直観的な判断の両方に適合する、物語の類似性の新しい定義を導入する。この概念のもとで収集された類似性判断に基づき、物語の埋め込み（ナラティブ・エンベディング）表現の評価も行う。 1000件を超える物語要約のトリプルそれぞれについて、少なくとも2件ずつのアノテーションを収集し、各アノテーションはいずれも一致する少なくとも2名のアノテータによって裏付けられている。本論文ではデータセットのサンプリングおよびアノテーション手順を説明し、さらに、提出されたシステムとそれらが用いる技術の概要も示す。 2つのトラックにまたがって、合計71件の最終提出が46チームから寄せられた。トリプルベースの分類設定では、LLMのアンサンブルが上位スコアの多くを占める。一方、埋め込み設定では、事前・事後処理を備えた事前学習済み埋め込みモデルを用いるシステムが、カスタムで微調整した解法とほぼ同等の水準を達成している。分析により、両トラックにおける自動システムの改善余地（ヘッドルーム）を特定した。タスクのウェブサイトには、すべてのチームについて、埋め込みの可視化とインスタンス単位の分類結果が掲載されている。