バングラ語のフェイクニュース検出におけるデータ不足への対応:LLMベースのデータ拡張アプローチ

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文は、デジタルメディアでの誤情報拡散が進む中、バングラ語のフェイクニュース検出においてデータが小さく偏っていることが進展を制約している点に取り組んでいる。
  • 手法として、指示チューニング済みGemma 3 27B ITモデルを用いて合成のバングラ語ニュース記事を生成し、意味論的フィルタリングとサブサンプリングでラベルの一貫性と多様性を保つLLMベースのデータ拡張フレームワークを提案する。
  • ゼロショットと少数ショットのプロンプト、複数の拡張率、ランダム選択と類似度ベース選択を比較し、最も効果が高いのはマイノリティクラスのみを高い拡張率で拡張し、さらにランダムなサブサンプリングを行う場合だと示している。
  • このアプローチにより、フェイクニュースのF1スコアが0.85から0.88へ向上した。
  • 再現性を高めるために、4,545件の合成バングラ語フェイクニュース・サンプルと実装一式を公開している。

Abstract

デジタルメディアにおける誤情報の拡散が進む中、信頼性の高いフェイクニュース検出システムの必要性が高まっている。しかし、バングラ語のような資源の乏しい言語では、小さく不均衡なデータセットによって進展が限られている。本研究では、大規模言語モデル(LLM)に基づくデータ拡張が、この制約を効果的に解消し、バングラ語のフェイクニュース分類を改善できるかどうかを検証する。既存のデータセットは依然として有用である一方で、強く不均衡であるためモデルの性能が制限されており、バングラ語に対するLLMベースの拡張はほとんど検討されていない。そこで本研究では、このギャップを埋めるために、意味的フィルタリングとラベル整合性および多様性を保つための制御付きサブサンプリングを支える、指示チューニング済みのGemma 3 27B ITモデルを用いて合成したバングラ語ニュース記事を生成する体系的な拡張フレームワークを提案する。ゼロショットおよび少数ショットのプロンプト手法を比較し、複数の拡張率を評価し、ランダム選択と類似度ベース選択の戦略を検討する。我々の実験では、少数クラスのみを高い拡張率で拡張し、ランダムなサブサンプリングを行うことが最も大きな改善をもたらし、Fake NewsのF1スコアを0.85から0.88へと引き上げることが示された。再現性を支え、またこの低資源領域におけるさらなる研究を促進するために、我々は合成的に生成した4,545件のバングラ語フェイクニュースサンプルと、完全な実装を公開する。本研究結果は、適切に設計されたLLM駆動のデータ拡張が、低資源環境におけるフェイクニュース検出を大幅に改善できること、そして多言語の誤情報研究を前進させるための実践的な基盤を提供できることを示している。