認知バイアスが絡む中国のショート動画型誤情報に対するマルチモーダル大規模言語モデルの検証

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、認知バイアスと結びついた中国のショート動画型誤情報に対し、マルチモーダル大規模言語モデルがどの程度頑健かを評価する枠組みを提示する。
  • 200本のショート動画からなる手作業アノテーション付きデータセットを構築し、4つの健康領域にまたがって、実験エラー・論理の誤謬・捏造された主張の3種類の欺瞞パターンを、国家基準や学術文献といった根拠で検証してラベル付けした。
  • 8つの最先端MLLMを5つのモダリティ設定で評価した結果、マルチモーダル環境でGemini-2.5-Proが最高性能(belief score 71.5/100)で、o3が最も低かった(35.2)。
  • 誤情報動画に含まれる社会的手がかりを調べたところ、権威的なチャンネルIDのようなバイアスによってモデルが誤った信念を形成しやすいことが示された。

Abstract

短編動画プラットフォームは、誤情報の主要なチャネルとなっており、欺瞞的な主張が視覚的な実験やソーシャル・キュー(手がかり)を頻繁に活用しています。マルチモーダル大規模言語モデル(MLLMs)は優れた推論能力を示しているものの、認知バイアスと絡み合った誤情報に対する頑健性は、十分に検討されていません。本論文では、4つのヘルス分野にまたがる200本の短編動画からなる高品質な手作業アノテーション付きデータセットを用いた、包括的な評価フレームワークを提案します。このデータセットは、3つの欺瞞パターン――実験上の誤り、論理の誤謬、捏造された主張――それぞれに対して、国家基準や学術文献などの根拠によって裏付けられたきめ細かなアノテーションを提供します。5つのモダリティ設定において、最先端のMLLMを8モデル評価します。実験結果は、Gemini-2.5-Proがマルチモーダル設定で最も高い性能を達成し(信念スコア 71.5/100)、一方でo3が最も低く(35.2)なったことを示しています。さらに、動画内で誤った信念を誘発するソーシャル・キューを調査し、モデルが権威あるチャンネルIDのようなバイアスに影響を受けやすいことを見出します。