SemEval-2026 Task 5におけるSwanNLP：物語の語義曖昧性解消に向けたLLMベースの尤度（妥当性）スコアリングフレームワーク

arXiv cs.CL / 2026/4/20

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

SemEval-2026 Task 5は、短編物語の中で人間が感じる「語義の妥当性（もっともらしさ）」をモデルに予測させることで、実世界の物語文脈におけるLLMの適用の不足を埋める取り組みとして提示されました。
本研究では、同音異義語の語義曖昧性解消に対して、構造化された推論メカニズムを用いた、LLMベースの「妥当性スコアリング」フレームワークを提案しています。
低パラメータLLMを多様な推論戦略で微調整する場合と、大規模パラメータLLMに対してダイナミックなfew-shotプロンプトを行う場合が、語義同定と妥当性推定の精度にどう影響するかを検証しています。
結果として、ダイナミックなfew-shotプロンプトを用いた商用の大規模LLMが、人間の妥当性判断をかなり近く再現でき、さらにアンサンブルにより性能がわずかに向上して、人手アノテータ5名の合意傾向をより反映できることが示されました。

Reddit r/LocalLLaMA

Dev.to

Dev.to

Reddit r/artificial

Dev.to