SemEval-2026 Task 5におけるSwanNLP:物語の語義曖昧性解消に向けたLLMベースの尤度(妥当性)スコアリングフレームワーク
arXiv cs.CL / 2026/4/20
📰 ニュースSignals & Early TrendsModels & Research
要点
- SemEval-2026 Task 5は、短編物語の中で人間が感じる「語義の妥当性(もっともらしさ)」をモデルに予測させることで、実世界の物語文脈におけるLLMの適用の不足を埋める取り組みとして提示されました。
- 本研究では、同音異義語の語義曖昧性解消に対して、構造化された推論メカニズムを用いた、LLMベースの「妥当性スコアリング」フレームワークを提案しています。
- 低パラメータLLMを多様な推論戦略で微調整する場合と、大規模パラメータLLMに対してダイナミックなfew-shotプロンプトを行う場合が、語義同定と妥当性推定の精度にどう影響するかを検証しています。
- 結果として、ダイナミックなfew-shotプロンプトを用いた商用の大規模LLMが、人間の妥当性判断をかなり近く再現でき、さらにアンサンブルにより性能がわずかに向上して、人手アノテータ5名の合意傾向をより反映できることが示されました。


