Abstract
多様な領域にわたって偽ニュースが拡散することは、現在の検出システムが抱える重要な限界を浮き彫りにしています。これらのシステムはしばしば領域固有性が狭く、汎化が十分でないためです。既存のドメイン横断アプローチには、2つの主要な課題があります:(1)ラベル付きデータに依存していることですが、ラベル付きデータは利用できないことが多く、取得するにもリソースがかかります。(2) 形式的なドメイン分類による、あるいはドメイン固有の特徴の軽視による情報損失です。これらの問題に対処するために、Human-Large Language Model(LLM)による共同アノテーションと、領域を意識したアクティブラーニング(AL)を統合した、新しいドメイン横断の偽ニュース検出手法であるCoALFakeを提案します。本手法では、LLMを用いてスケーラブルで低コストなアノテーションを行いながら、人の監督を維持してラベルの信頼性を担保します。さらに、領域埋め込み技術を統合することで、CoALFakeは領域固有のニュアンスとドメイン横断のパターンの両方を動的に捉え、領域非依存(ドメイン非依存)モデルの学習を可能にします。加えて、領域を意識したサンプリング戦略により、多様な領域カバレッジを優先することで、サンプル獲得を最適化します。複数のデータセットにまたがる実験結果は、提案手法がさまざまなベースラインを一貫して上回ることを示しています。これらの結果は、人とLLMの共同アノテーションが非常に費用対効果の高い手法であり、優れた性能をもたらすことを強調しています。いくつかのデータセットに対する評価では、人の監督が最小限であっても、CoALFakeが既存の多くのベースラインを一貫して上回ることが示されています。