LLMは、予想以上に抽象的な意味の理解が苦手

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、抽象的な語の理解が言語モデルにとって依然として難しい理由として、抽象的な意味は具体性に欠け、高度な意味論に依存しているためだと主張しています。
  • SemEval-2021 Task 4(ReCAM)のcloze形式の評価を用いることで、GPT-4oを含む多くのLLMが、ゼロショット・ワンショット・少数ショットのプロンプトいずれにおいても、BERTやRoBERTaのような微調整モデルよりも抽象的な意味に関する質問で成績が悪いことが分かります。
  • そこで、文章と候補となる選択肢の両方に対してより動的に注意を向ける双方向アテンション分類器を提案し、抽象化における人間の認知戦略を模倣することを目指します。
  • 提案手法は、Task 1で精度を4.06%、Task 2で3.41%改善し、アーキテクチャの変更や注意設計によって抽象理解のギャップを部分的に緩和できることを示唆しています。

要旨: 抽象的な意味を理解することは、高度な言語理解にとって極めて重要である。広範な研究にもかかわらず、抽象語は具体性のない、高次の意味論を持つため、依然として難しい。SemEval-2021 Task 4(ReCAM)は、クローズ(cloze)形式で、パッセージと質問とともに5つの抽象的な選択肢を提示することで、モデルが抽象概念を解釈する能力を評価する。主な知見は次のとおりである:(1)GPT-4oを含むほとんどの大規模言語モデル(LLM)は、ゼロショット、ワンショット、ファインチューニングではない場合の少数ショット設定において、抽象的な意味の理解に苦戦する一方で、BERTやRoBERTaのようなファインチューニング済みモデルはより良い性能を示す。(2)人間の認知戦略に触発された提案の双方向アテンション分類器により、パッセージと選択肢に対して動的に注意を向けることで、ファインチューニング済みモデルの性能が向上する。この手法は、Task 1で4.06パーセント、Task 2で3.41パーセントの精度向上を達成し、抽象的な意味理解の可能性を示している。