「そこ、見てますよ」:大規模な視覚言語モデルはマルチモーダルなダジャレを理解できるのか?

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模な視覚言語モデル(VLM)が、視覚とテキストが協調して、文字通りの意味と比喩的な意味の両方を示すマルチモーダルなダジャレを理解できるかどうかを検討する。
  • マルチモーダルなダジャレ生成パイプラインを導入し、複数のダジャレ種別に加えて、ロバスト性を検証するための敵対的な非ダジャレ(ダジャレに近い注意誘導)を含む「MultiPun」データセットを公開する。
  • 評価の結果、既存のほとんどのモデルは、真のダジャレとそれに非常に近い注意誘導を正しく区別するのが難しいことが示される。
  • 著者らは、プロンプトレベルおよびモデルレベルの戦略を提示し、それによりダジャレの理解を改善でき、F1スコアで平均16.5%の向上を達成する。
  • これらの知見は、人間のようなクロスモーダル推論とユーモアへの感受性を備えた将来のVLMを構築するための指針として位置づけられる。

Abstract

しゃれ(pun)は、意味の多義性と音の類似性を利用してユーモアを生み出す、一般的な修辞的な言葉遊びである。マルチモーダルなしゃれでは、視覚要素とテキスト要素が相乗的に働き、比喩的な意味を同時に喚起しながら、文字通りの意味を根付かせる。Vision-Language Models(VLM)がマルチモーダルの理解や生成に広く用いられているにもかかわらず、厳密なベンチマークの不足により、VLMがしゃれを理解できる能力は体系的に研究されていない。これに対処するために、まず、マルチモーダルなしゃれ生成のパイプラインを提案する。次に、さまざまなタイプのしゃれと、敵対的な非しゃれの気をそらす要素(distractors)からなるデータセットであるMultiPunを導入する。我々の評価では、多くのモデルがこれらの気をそらす要素と本物のしゃれとを区別するのに苦労していることがわかった。さらに、しゃれ理解を高めるためのプロンプトレベルおよびモデルレベルの双方の戦略を提案し、F1スコアで平均16.5%の改善を達成した。これらの知見は、クロスモーダル推論によって人間らしいユーモアの機微を習得する将来のVLMを開発するうえで、貴重な示唆を提供する。