FactAppeal:ニュースメディアにおけるエピステミックな事実的アピールの特定

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検証対象の主張そのものを確かめるのではなく、外部ソースや証拠によってニュースの発言がどのように(そしてそれがそもそも)信頼できるものとして提示されているかを判定することに焦点を当てたタスク「Epistemic Appeal Identification(エピステミック・アピール同定)」を導入する。
  • 英語ニュース文 3,226件からなる、人手による注釈付きデータセット「FactAppeal」を提示する。このデータセットは、事実的(factual)な発言と、それが依拠する証拠(evidentiary sources)について、スパン単位のラベルを含む。
  • データセットには、ソースの種類(専門家・証人・直接的証拠など)、ソースが明示されているかどうか、直接/間接引用によって帰属(attribution)がどのように表現されているかといった、きめ細かなエピステミック特徴が含まれる。
  • 著者らは、(2B〜9Bパラメータの)複数のエンコーダおよび生成型デコーダモデルを評価し、Gemma 2 9B による最良性能(マクロF1スコア 0.73)を報告する。
  • 本研究は、主張の信頼性を「エピステミックなアンカリング(epistemic anchoring)」の解釈可能な構造として捉え直し、証拠を意識したニュース理解に関する、よりきめ細かなNLP研究を可能にする。

Abstract

事実に関する主張は、どのようにして信頼できるものとして成立するのだろうか。私たちは、事実文が外部の情報源や証拠によって、どのように、そしてどの程度まで裏付けられているのかを特定する、新しいタスク「認識的アピール(Epistemic Appeal)同定」を提案する。このタスクの研究を推進するために、英語ニュース文を3,226文収録した、人手によるアノテーション付きデータセット「FactAppeal」を提示する。先行するリソースが、主張の検出と検証だけに焦点を当てているのに対し、FactAppealは、これらの主張の背後にある、そしてそれらを支える、微妙な認識論的構造と、証拠に基づく根拠を同定する点が異なる。FactAppealには、事実文および、それらが依拠している情報源への言及を特定する、スパン(範囲)レベルのアノテーションが含まれている。さらに、アノテーションは、「情報源の種類」(例:能動的参加者、目撃者、専門家、直接証拠)や、その情報源が固有名で言及されているかどうか、情報源の役割および認識的な資格(epistemic credentials)への言及、直接引用または間接引用による情報源への帰属、その他の特徴といった、事実へのアピールのきめ細かな特性も含んでいる。私たちは、2B〜9Bパラメータの範囲において、多様なエンコーダモデルと生成デコーダモデルでこのタスクをモデル化する。Gemma 2 9Bに基づく最良のモデルは、マクロF1スコア0.73を達成している。
広告