音声トランスクリプトによる動画内の誤情報スパン検出

arXiv cs.CL / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文は、オンライン上の誤情報の問題に取り組み、動画ベースの誤情報が特にファクトチェック担当者にとって難しい点（クリップの記録・投稿の容易さ）を強調している。
動画単位で誤情報かどうかを判定する従来の枠組みを超え、「誤情報スパン検出」として、誤情報の主張を生む動画中の正確な区間を特定することを目指している。
著者らは各動画の音声を文字起こしし、2本の新しいデータセットを構築しており、500本超・2,400区間超について、時間区間に紐づけたファクトチェック済みの主張を注釈付きで収録している。
最先端の言語モデルを用いた分類器により、動画内のどこに誤情報があるかを特定する性能としてF1スコア0.68を報告している。
さらに、注釈付きデータセットに加えて、すべてのトランスクリプト、音声、動画も公開し、追試と発展研究を促している。

要旨: オンラインの誤情報は、近年最も深刻な問題の一つであり、政治的分断、民主主義への攻撃、公衆衛生上のリスクといった重大な結果をもたらしている。誤情報は、大規模な利用者基盤を持つあらゆるプラットフォーム、すなわちオンラインのソーシャルネットワークやメッセージングアプリを含む形で現れる。誤情報は、画像、テキスト、音声、動画を含むあらゆるメディアおよびコンテンツ形式に浸透している。とりわけ、動画に基づく誤情報は、個人がさまざまな動画共有プラットフォーム上で容易に動画を録画してアップロードできることから、ファクトチェック担当者にとって多面的な課題となる。これまでの研究では、動画レベルで、その動画が誤情報を含むかどうかに焦点を当てた、動画に基づく誤情報の検出に取り組んできた。このアプローチは有用であるが、誤情報が動画のどの時点で生じているのか、そしてどのコンテンツ（すなわち主張）がその動画を誤情報として特徴づける原因となっているのか、という追加の文脈が与えられないため、問題の捉え方としては限定的で、解釈もしにくい。
本研究では、音声の書き起こしを用いて動画に対する誤情報検出を探究できる、2つの新しいデータセットを作成することで、この研究ギャップを埋めることを目指す。具体的には、動画の誤情報としての主張（misinformation span）を生み出している動画区間の特定（誤情報区間検出）に焦点を当てる。本タスクのために2つの新しいデータセットを提示する。各動画の音声をテキストに書き起こし、誤情報の主張が現れる動画セグメントを特定する。その結果、注釈付きのファクトチェック済み主張を含む2,400以上のセグメントを備えた、500本超の動画からなる2つのデータセットを作成した。次に、最先端の言語モデルを用いて構築した分類器を用い、その結果、動画のどの部分に誤情報が存在するかをF1スコア0.68で特定できることを示す。注釈付きデータセットを公開する。また、すべての書き起こし、音声、動画もあわせて提供する。