首の痛みを見直す：言語モデルのための意味推論ベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文では、言語モデルを意味句の処理タスクで評価するための新しい評価スイートSemanticQAが提案されています。
SemanticQAは、既存のマルチワード表現（MwE）リソースを統合・再編し、語彙的コロケーションに加えて、慣用表現・名詞複合・動詞構文という3つの詳細カテゴリをカバーします。
ベンチマークは、抽出・分類・解釈に加え、順序立てて組み合わせたタスクまでを通して、さまざまなモデルのアーキテクチャと規模を評価し、意味推論の全体性能を調べます。
結果として、特に意味推論が必要なタスクで大きな性能差が見られ、モデルごとに推論力や複雑なフレーズの意味理解に違いがあることが示されます。
著者らは、評価用ハーネスとデータセットをGitHubで公開し、難度の高い意味句の理解をより強化する研究を後押しします。

概要: 本稿では、意味的フレーズ処理タスクにおいて言語モデル（LM）を評価するための評価スイートであるSemanticQAを提示します。このベンチマークは、既存の多語表現（MwE）リソースを統合し、それらを統一されたテストベッドへと再編します。語彙的連結などの一般的な語彙現象の両方を扱うほか、3つのきめ細かなカテゴリ――慣用表現、名詞複合語、動詞構文――もカバーします。SemanticQAを通じて、抽出、分類、解釈といったタスク、および逐次的なタスク合成において、多様なアーキテクチャと規模のLMを評価します。特に意味的推論を必要とするタスクにおいて、大きな性能差が明らかになります。これにより、推論の有効性やLMの意味理解における違いが示され、難度の高い意味的フレーズに対してより強い理解をもつようLMを押し進めるための示唆が得られます。SemanticQAの評価ハーネスとデータは https://github.com/jacklanda/SemanticQA で利用可能です。