画像はビジョン・言語モデルによる誤情報の拡散を増幅する

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、画像をプロンプトに加えることでビジョン・言語モデル（VLM）が誤情報を再共有しやすくなるかどうかを検証し、人間が画像付きの情報をより信じて拡散しやすくなる傾向に同様の脆弱性がある可能性を示しています。
研究チームは、PolitiFactの事実確認済み政治ニュースに画像と真偽ラベルを組み合わせた新しいマルチモーダル・データセットを用いて、最先端のVLM4モデルを評価しました。
結果として、画像が存在すると誤報は再共有率が14.5%増加し、真実のニュースでも5.3%増加することが示され、視覚によるバイアスが共有行動を強く押し上げることが明らかになりました。
その影響はパーソナ条件付けやコンテンツ属性によって変化し、ダークトライアド特性は誤報の再共有を増やす一方、共和党支持のプロフィールは真偽への感度を下げることが分かりました。
Claude-3-Haikuは視覚的な誤情報に対して最も頑健であることが示され、本研究は画像およびパーソナの効果を踏まえたマルチモーダル評価と対策の必要性を強調しています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu