要旨: インターネット・ミームは、マルチモーダルなオンラインコミュニケーションとして広く普及しており、テキストと画像の組み合わせによって、比喩的な要素を用いて重層的な意味を伝えることがしばしばあります。しかし、マルチモーダル大規模言語モデル(MLLM)が、ミーム内の比喩的な意味を同定するために、視覚情報とテキスト情報をどのように組み合わせ、解釈しているのかについては、いまだほとんど明らかになっていません。このギャップに対処するために、3つのデータセットにわたって、生成型の最先端MLLMを8モデル評価し、それらが6種類の比喩的意味を検出し、説明できる能力を検証します。さらに、これらのMLLMが生成した説明に対して人手評価も行い、提示された推論が予測ラベルを支持しているかどうか、またその推論が元のミーム内容に忠実であり続けているかどうかを評価します。その結果、すべてのモデルが、比喩的な意味が存在しない場合でも、ミームと比喩的意味を結び付ける強いバイアスを示すことが分かりました。加えて、定性分析から、正しい予測が必ずしも忠実な説明を伴っているわけではないことも示されました。
来た、見た、説明した:ミームにおける比喩的意味を対象にマルチモーダルLLMをベンチマークする
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究では、3つのデータセットにまたがってミーム内の6種類の比喩的意味を検出し、説明する8つの最先端の生成型マルチモーダルLLMをベンチマークした。
- 結果は広範なバイアスを示す。すなわち、ミーム中に比喩的意味が存在しない場合でも、モデルはそれを予測する傾向がある。
- 人手による評価では、モデルの説明は予測ラベルを十分に裏づけない可能性があり、またミームの元の内容に対して忠実でない(忠実度が不十分である)ことが示された。
- 定性的分析の結果、正しいラベル予測が説明の質や内容の忠実さと必ずしも結びつかないことが分かった。
- 本研究は、現実のマルチモーダル環境において、MLLMが視覚とテキストの解釈を、根拠に基づく比喩的意味や説明可能性へ適切に整合させる方法における重要な限界を明らかにする。
