意味が文字どおりではないとき：言語と言語モダリティをまたいだ慣用的意味の探究

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の言語モデルが慣用的で文化的に根ざした意味に苦手意識を示しがちなのは、比喩的な意図ではなく表層的な語彙／意味の手がかりに過度に依存しているためだと主張する。
3,533件のヒンディー語・ベンガル語・タイ語の慣用句を対象とした、多言語・マルチモーダルなコーパス「Mediom」を提示する。そこには、ゴールド標準の説明、言語横断の翻訳、そして表形式テキストと画像の対応付け（アライン）を含め、比喩の曖昧性解消の評価を可能にする。
著者らは、Mediom上で、大規模言語モデル（テキストによる推論）と視覚言語モデルの両方をベンチマークし、比喩および慣用句の理解における体系的な失敗を確認する。
これらの不足を補うために、誤りフィードバック付きの検索と診断的手がかりを用いる、ヒンティング（示唆）ベースの慣用句説明フレームワーク「HIDE」を提案し、反復的な推論改善を実現する。
全体として、MediomとHIDEは、文化的に根ざしたマルチモーダルな慣用句理解に到達可能な次世代AIシステムを構築するための、厳密なテストベッドおよび方法論として位置づけられている。

概要: 比喩や文化と深く結びついた慣用的推論は、現代の言語モデルにとってなお盲点となっており、その進歩は表層的な語彙的・意味論的手がかりへと偏りがちです。たとえばベンガル語の慣用句 \textit{\foreignlanguage{bengali}{\char"0986\char"0999\char"09CD\char"0997\char"09C1 \char"09B0 \char"09AB\char"09B2 \char"099F\char"0995}}（angur fol tok, ``grapes are sour''：「ぶどうは酸っぱい」）には、否認に駆動された合理化が符号化されていますが、素朴なモデルは文字どおりの「狐とぶどう」のイメージに飛びついてしまいます。この見落としに対処するために、我々は「Mediom」を提示します。これは、多言語・マルチモーダルな慣用句コーパスであり、ヒンディー語、ベンガル語、タイ語の合計3,533の慣用句を収録し、各慣用句に金標準の説明、言語横断的な翻訳、そして入念に整合されたテキスト--画像表現を対応づけています。Mediomに対して、大規模言語モデル（テキストに基づく推論）と、視覚言語モデル（比喩の曖昧性解消）をいずれもベンチマークし、比喩理解における体系的な失敗を明らかにします。これらのギャップを緩和するために、我々は「HIDE」を提案します。これは、ヒントに基づく慣用句説明フレームワークであり、誤りフィードバックに基づく検索と、狙いを定めた診断的手がかりを活用して、反復的な推論の改善を行います。総じて、MediomとHIDEは、厳密なテストベッドと方法論を確立し、次世代AIシステムに組み込まれる推論のヒントを伴う、文化的に根ざしたマルチモーダル慣用句理解のための基盤を提供します。