LiveFact:LLMによる偽ニュース検出のための動的・時間対応型ベンチマーク

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LiveFact(arXiv:2604.04815v1)は、時間に依存して証拠集合が変化する「動的・時間対応」ベンチマークで、静的ベンチのデータ汚染(BDC)や時系列不確実性への弱さを補うことを目的としています。
  • ベンチマークはデュアルモードで評価し、最終検証を行うClassification Modeと、進行中の不完全な証拠から推論するInference Modeを分けて測定します。
  • BDCを明示的にモニタリングするコンポーネントも提案されており、ベンチマークの信頼性を評価プロセスに組み込んでいます。
  • 22のLLMでのテストでは、Qwen3-235B-A22BのようなオープンソースMixture-of-Expertsが、プロプライエタリなSOTAに匹敵または上回る結果が示されています。
  • 分析では「reasoning gap」が見られ、強いモデルほど初期データでは検証不能な主張を見極めて“epistemic humility(認識論的な慎重さ)”を示す点が、従来の静的ベンチでは捉えにくいことが強調されています。

Abstract

大規模言語モデル(LLM)の急速な発展により、フェイクニュース検出やファクトチェックのタスクは、単純な分類から複雑な推論へと変化しました。しかし、評価フレームワークはそれに追いついていません。現在のベンチマークは静的であるため、ベンチマークデータ汚染(BDC)に対して脆弱であり、時間的な不確実性のもとでの推論を評価するのに適していません。これに対処するため、私たちは、誤情報検出における現実世界の「戦場の霧(fog of war)」を継続的にシミュレートする、常に更新されるベンチマーク LiveFact を提案します。LiveFact は動的で時間に応じて変化する証拠セットを用いて、記憶された知識ではなく、進化し不完全な情報のもとでモデルが推論できるかどうかを評価します。私たちは二つの評価モードを提案します。最終的な検証のための Classification Mode と、証拠に基づく推論のための Inference Mode であり、さらに BDC を明示的に監視するコンポーネントも備えます。22のLLMを用いたテストでは、Qwen3-235B-A22B のようなオープンソースの Mixture-of-Experts モデルが、現在、独自の最先端システムと同等、あるいは上回る性能を示すことが分かりました。より重要なのは、私たちの分析が「推論ギャップ」と呼べる大きな差を見出したことです。能力のあるモデルは、初期のデータスライスにおける検証不可能な主張を認識することで、認識論的謙虚さを示します—この点は従来の静的ベンチマークでは見落とされてきました。LiveFact は、頑健で時間を意識したAI検証を評価するための持続可能な基準を確立します。