広告

ClaimPT:ニュース記事における注釈付き主張のポルトガル語データセット

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ファクトチェックは依然として労力を要する作業であり、誤情報に対するデバンク(反証)の速度を上げるための重要な最初のステップとして、自動の主張(クレーム)識別が必要だと主張している。
  • ClaimPTを導入する。ClaimPTは、ヨーロッパのポルトガル語ニュース記事を対象に、事実に関する主張を注釈付きで整理したデータセットであり、LUSA(ポルトガル通信社)との提携を通じて収集された1,308記事と6,875件の注釈を含む。
  • ClaimPTは、ソーシャルメディアや国会の議事録といった情報源ではなく、ジャーナリズムのコンテンツを重視しており、現実世界におけるニュースの主張検出をより適切に反映することを目指している。
  • 注釈の品質は、記事ごとに2名の訓練済みアノテータによる作業に加え、新たに提案される注釈スキームを用いたキュレーターによる検証によって支えられている。
  • 著者らは、主張検出のためのベースラインモデルを公開し、初期のベンチマークを提供するとともに、低リソースなポルトガル語のファクトチェックに向けた下流のNLP/IR研究を可能にする。

要旨: ファクトチェックは依然として負担が大きく時間のかかる作業であり、現在も主として手作業による検証に依存しているため、オンライン上での誤情報の急速な拡散に対抗できません。これは特に重要です。なぜなら、誤った情報の否定(デバンク)は、誤情報そのものが消費者に届くよりも通常長い時間がかかるからです。自動化によって修正を加速できれば、より効果的にそれに対抗するのに役立ちます。多くの組織が手作業のファクトチェックを行っていますが、デジタルコンテンツの量が増大するにつれて、この手法はスケールしにくいです。こうした制約のために、ファクトチェックの自動化への関心が高まってきました。ここで、主張(クレーム)を特定することは重要な第一歩です。しかし、言語間で進展は一様ではありません。豊富な注釈データがあるため英語が優勢です。ポルトガル語も他の言語と同様に、研究を制限する、利用可能でライセンスされたデータセットがまだ不足しています。その結果、NLPの発展やアプリケーションも限られています。本論文では、欧州ポルトガル語のニュース記事を対象に事実に関する主張を注釈したデータセット「ClaimPT」を導入します。ClaimPTは1,308記事と6,875件の個別注釈から構成されています。ソーシャルメディアや議会の議事録に基づく既存の多くのリソースとは異なり、ClaimPTはジャーナリスティックなコンテンツに焦点を当てています。これは、ポルトガル通信社LUSA(ポルトガルニュースエージェンシー)との連携によって収集したものです。注釈の品質を確保するために、2名の訓練済みアノテータが各記事にラベル付けを行い、キュレーターが新たに提案するスキームに従ってすべての注釈を検証しました。また、主張検出のためのベースラインモデルも提供し、初期のベンチマークを確立するとともに、将来のNLPおよびIRアプリケーションを可能にします。ClaimPTを公開することで、低リソースのファクトチェックに関する研究を前進させ、ニュースメディアにおける誤情報の理解を深めることを目指します。

広告