評価する評価者：語彙意味変化検出におけるSemEval-2020タスク1の問題点

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、語彙意味変化検出のベンチマークとしてSemEval-2020タスク1を、実装化（operationalisation）、データ品質、ベンチマーク設計に焦点を当てた枠組みを用いて再評価する。
意味変化を、離散的な語義の「獲得／喪失／再分配」として主にモデル化することは、漸進的・構文的（constructional）・共起（collocational）・談話レベルの変化を反映するには狭すぎると主張する。
著者らは、OCRノイズ、崩れた文字、文の途中までの切り捨て、レマタイゼーションと品詞タグ付けの不整合、標的（target）の見落としといった重大なコーパス／前処理の問題によって、データセットが影響を受けていることを示す。これらは、モデルの出力をバイアスし、再現性を低下させうる。
さらに、ベンチマークの小規模な厳選された標的セットと限られた言語カバレッジは現実性に乏しく、統計的不確実性を増大させるため、進歩を決定的に測るものではなく、部分的なテストベッドとして扱うべきだと論じる。
本論文は、今後のデータセットや共有タスクでは、より広い意味変化の理論を用いること、前処理を透明に公開すること、言語横断のカバレッジを拡大すること、より現実的な評価設定を採用することを求める。