CEI: 言語モデルの語用推論を評価するベンチマーク
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CEIベンチマークは、語用的に複雑な発話の曖昧さをLLMsがどれだけ正しく解消できるかを評価するための、300件の人間検証済みシナリオからなるデータセットとして紹介される。
- 各シナリオは、状況的文脈と話者・聴者の役割を、5つの語用サブタイプ(皮肉/アイロニー、混合信号、戦略的丁寧さ、受動的攻撃、逸脱/誤誘導)および職場・家庭・社交・サービス設定にまたがる3つの権力配置と組み合わせている。
- 3名の訓練済みアノテータがすべてのシナリオを独立してラベル付けし、著者らはサブタイプ別のFleissのκが0.06–0.25と低いことを指摘する一方、相違は有益であると主張している。4段階の品質管理パイプラインがこの点を裏付けている。
- CEIはCC-BY-4.0の下で公開され、語用推論における標準化ベンチマークとして機能する。
語用推論は、字義的意味を超えて意図された意味を推し量るもので、日常的なコミュニケーションの基盤となる。しかし大規模言語モデルにとっては依然として難しい。Contextual Emotional Inference(CEI)ベンチマークを提示する。これは、LLMsが語用的に複雑な発話の曖昧さをどれだけ正しく解消できるかを評価する、300件の人間検証済みシナリオからなるデータセットである。各シナリオは、曖昧な発話に対して、状況的文脈と話者・聴者の役割(明示的な権力関係を伴う)を対にしている。データセットは、職場、家庭、社交、サービス設定に属する五つの語用サブタイプ(皮肉/アイロニー、混合信号、戦略的丁寧さ、受動的攻撃、逸脱/誤誘導)を網羅し、三つの権力配置(同僚レベル、上位から下位、下位から上位)を含む。3名の訓練済みアノテータが全シナリオを独立してラベル付けした。サブタイプ別のインターアノテータ協定(Fleissのκ)は0.06〜0.25と低いが、語用推論には複数の妥当な読みが存在し、相違そのものが有益な情報であると予想される。我々は自動統計チェックと専門家の裁定を組み合わせた4段階の品質管理パイプラインを含むアノテーション手法を説明する。CEIはCC-BY-4.0の下で公開されている。