「そこ、見てますよ」:大規模な視覚言語モデルはマルチモーダルなダジャレを理解できるのか?
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模な視覚言語モデル(VLM)が、視覚とテキストが協調して、文字通りの意味と比喩的な意味の両方を示すマルチモーダルなダジャレを理解できるかどうかを検討する。
- マルチモーダルなダジャレ生成パイプラインを導入し、複数のダジャレ種別に加えて、ロバスト性を検証するための敵対的な非ダジャレ(ダジャレに近い注意誘導)を含む「MultiPun」データセットを公開する。
- 評価の結果、既存のほとんどのモデルは、真のダジャレとそれに非常に近い注意誘導を正しく区別するのが難しいことが示される。
- 著者らは、プロンプトレベルおよびモデルレベルの戦略を提示し、それによりダジャレの理解を改善でき、F1スコアで平均16.5%の向上を達成する。
- これらの知見は、人間のようなクロスモーダル推論とユーモアへの感受性を備えた将来のVLMを構築するための指針として位置づけられる。


