認知バイアスが絡む中国のショート動画型誤情報に対するマルチモーダル大規模言語モデルの検証

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、認知バイアスと結びついた中国のショート動画型誤情報に対し、マルチモーダル大規模言語モデルがどの程度頑健かを評価する枠組みを提示する。
200本のショート動画からなる手作業アノテーション付きデータセットを構築し、4つの健康領域にまたがって、実験エラー・論理の誤謬・捏造された主張の3種類の欺瞞パターンを、国家基準や学術文献といった根拠で検証してラベル付けした。
8つの最先端MLLMを5つのモダリティ設定で評価した結果、マルチモーダル環境でGemini-2.5-Proが最高性能（belief score 71.5/100）で、o3が最も低かった（35.2）。
誤情報動画に含まれる社会的手がかりを調べたところ、権威的なチャンネルIDのようなバイアスによってモデルが誤った信念を形成しやすいことが示された。

Abstract

短編動画プラットフォームは、誤情報の主要なチャネルとなっており、欺瞞的な主張が視覚的な実験やソーシャル・キュー（手がかり）を頻繁に活用しています。マルチモーダル大規模言語モデル（MLLMs）は優れた推論能力を示しているものの、認知バイアスと絡み合った誤情報に対する頑健性は、十分に検討されていません。本論文では、4つのヘルス分野にまたがる200本の短編動画からなる高品質な手作業アノテーション付きデータセットを用いた、包括的な評価フレームワークを提案します。このデータセットは、3つの欺瞞パターン――実験上の誤り、論理の誤謬、捏造された主張――それぞれに対して、国家基準や学術文献などの根拠によって裏付けられたきめ細かなアノテーションを提供します。5つのモダリティ設定において、最先端のMLLMを8モデル評価します。実験結果は、Gemini-2.5-Proがマルチモーダル設定で最も高い性能を達成し（信念スコア 71.5/100）、一方でo3が最も低く（35.2）なったことを示しています。さらに、動画内で誤った信念を誘発するソーシャル・キューを調査し、モデルが権威あるチャンネルIDのようなバイアスに影響を受けやすいことを見出します。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

認知バイアスが絡む中国のショート動画型誤情報に対するマルチモーダル大規模言語モデルの検証

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」