要旨: SemEval-2026 Task 5 のための私たちのシステムを説明します。これは、短編物語中の同音語の与えられた語義の妥当性を5点リッカート尺度で評価することを要求します。システムは、人間の判断の平均値の標準偏差1内に収まる正確さの非加重平均とスピアマン順位相関で評価されます。複数のクローズドソースの商用LLMを用いた3つのプロンプティング戦略を検討します: (i) ベースラインのゼロショット設定、(ii) 構造化推論を伴うチェイン・オブ・ソウト(CoT)スタイルのプロンプティング、(iii) 候補語義を同時に評価する比較型プロンプティング戦略。さらに、金標本における顕著な注釈者間変動を考慮するため、モデル予測を平均化してアンサンブル設定を提案します。3つのプロンプティング戦略すべてにまたがるLLMのアンサンブルから成る公式ベストシステムは、競技リーダーボードで4位となり、0.88の精度と0.83のスピアマンのrho(平均0.86)を記録しました。追加のモデルを用いたポストコンペ実験により、この性能はさらに0.92の精度と0.85のスピアマンのrho(平均0.89)へと向上しました。我々は、比較型プロンプティングがモデルファミリ全体で一貫して性能を向上させ、モデルのアンサンブルが平均的な人間判断との整合性を著しく強化したことを発見しました。これは、複数の注釈者を含む主観的な意味評価タスクにおいて、LLMアンサンブルが特に適していることを示唆します。」}# end of JSON payload
SemEval-2026 Task 5におけるCOGNAC: 難解な物語における人間レベルの語義妥当性評価のためのLLMアンサンブル
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、SemEval-2026 Task 5のためのシステムを説明しており、短編物語における語義の妥当性を5段階リッカート尺度で評価する。ゼロショット、構造化推論を用いたChain-of-Thought(CoT)、および複数のLLMにまたがる比較プロンプトを評価する。
- 正解ラベルにおけるアノテータ間の著しいばらつきを考慮するため、モデル間およびプロンプト戦略間で予測を平均化するアンサンブル手法を提案する。
- 最も優れた公式システムは、3つのプロンプト戦略とLLMの全てを横断するアンサンブルで、リーダーボードで4位に入り、0.88の正確度と0.83のスピアマンのρを記録した。大会後の実験により、性能は0.92の正確度と0.85のρへ向上した。
- 調査結果は、比較プロンプトが一貫して性能を向上させ、アンサンブルが人間の平均判断値との整合性を大幅に高めることを示唆しており、複数のアノテータが関与する主観的意味評価タスクにはLLMアンサンブルが適していることを示している。