LiveFact:LLMによる偽ニュース検出のための動的・時間対応型ベンチマーク
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LiveFact(arXiv:2604.04815v1)は、時間に依存して証拠集合が変化する「動的・時間対応」ベンチマークで、静的ベンチのデータ汚染(BDC)や時系列不確実性への弱さを補うことを目的としています。
- ベンチマークはデュアルモードで評価し、最終検証を行うClassification Modeと、進行中の不完全な証拠から推論するInference Modeを分けて測定します。
- BDCを明示的にモニタリングするコンポーネントも提案されており、ベンチマークの信頼性を評価プロセスに組み込んでいます。
- 22のLLMでのテストでは、Qwen3-235B-A22BのようなオープンソースMixture-of-Expertsが、プロプライエタリなSOTAに匹敵または上回る結果が示されています。
- 分析では「reasoning gap」が見られ、強いモデルほど初期データでは検証不能な主張を見極めて“epistemic humility(認識論的な慎重さ)”を示す点が、従来の静的ベンチでは捉えにくいことが強調されています。




