「一枚の画像は千の言葉に値するのか？」視覚的証拠の必要性に基づく適応的マルチモーダル・ファクトチェック

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル・ファクトチェックに視覚的証拠を追加しても常に精度が向上するとは限らず、無差別に用いるとむしろ精度が低下することがあると主張している。
Analyzer を用いて、視覚的証拠が必要かどうかを適応的に判断する枠組み AMuFC を提案する。さらに Verifier は、その判断（決定）と証拠の両方に条件付けて、主張の真偽を予測する。
3つのデータセットでの実験により、Analyzer による「視覚的証拠の必要性」評価を用いることで、検証性能が大幅に向上することが示されている。
著者らはまた、より現実的な状況においてファクトチェック・モジュールを評価することを目的とした新たに構築されたデータセット WebFC を公開するとともに、コードも公開している。

日経XTECH

日経XTECH

Reddit r/artificial

Reddit r/artificial

Dev.to