マルチモーダルな主張抽出によるファクトチェック

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、自動ファクトチェックでは、今日の誤情報がテキストと画像の両方を含むというマルチモーダル性を考慮した主張抽出が必要だと主張しています。
ソーシャルメディア上のマルチモーダル主張抽出について、テキストと1枚以上の画像を含む投稿に対し、実在のファクトチェッカーから導いたゴールド標準の主張で注釈した「最初のベンチマーク」を提示します。
3要素の評価枠組み（意味の整合、忠実性、文脈の切り離し）で最先端のマルチモーダルLLMを評価した結果、ベースラインは修辞的な意図や文脈上の手がかりを捉えるのが難しいことが分かったとしています。
改善策として、意図を考慮するフレームワークMICEを提案し、特に意図が重要になるケースで向上が見られると報告しています。
この研究は、新しいベンチマーク/評価手法と、意図に焦点を当てたフレームワークを組み合わせ、マルチモーダル・ファクトチェックの信頼性向上を狙っています。

Abstract

自動事実確認（AFC）は最初のステップとして主張抽出に依存していますが、既存手法の多くは、今日の誤情報のマルチモーダルな性質をほとんど見落としています。ソーシャルメディアの投稿は、短く口語的なテキストと、ミーム、スクリーンショット、写真などの画像を組み合わせることが多く、テキストのみの主張抽出や、画像キャプション生成や視覚質問応答のようによく研究されたマルチモーダル課題のどちらとも異なる課題を生み出します。本研究では、ソーシャルメディアからのマルチモーダル主張抽出のための最初のベンチマークを提示します。ここでは、テキストと1枚以上の画像を含む投稿を用い、実世界のファクトチェッカーから導出したゴールド標準の主張でアノテーションしています。3部構成の評価フレームワーク（意味的整合、忠実性、脱文脈化）に基づいて、最先端のマルチモーダルLLM（MLLM）を評価したところ、ベースラインのMLLMは修辞的意図や文脈上の手がかりをモデル化するのが難しいことが分かりました。これに対処するため、意図を考慮した枠組みであるMICEを提案します。これにより、意図が重要となるケースで改善が見られます。