バングラ語のフェイクニュース検出におけるデータ不足への対応:LLMベースのデータ拡張アプローチ
arXiv cs.CL / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、デジタルメディアでの誤情報拡散が進む中、バングラ語のフェイクニュース検出においてデータが小さく偏っていることが進展を制約している点に取り組んでいる。
- 手法として、指示チューニング済みGemma 3 27B ITモデルを用いて合成のバングラ語ニュース記事を生成し、意味論的フィルタリングとサブサンプリングでラベルの一貫性と多様性を保つLLMベースのデータ拡張フレームワークを提案する。
- ゼロショットと少数ショットのプロンプト、複数の拡張率、ランダム選択と類似度ベース選択を比較し、最も効果が高いのはマイノリティクラスのみを高い拡張率で拡張し、さらにランダムなサブサンプリングを行う場合だと示している。
- このアプローチにより、フェイクニュースのF1スコアが0.85から0.88へ向上した。
- 再現性を高めるために、4,545件の合成バングラ語フェイクニュース・サンプルと実装一式を公開している。