エンタメニュースに対し、LLMはより懐疑的なのか？

arXiv cs.AI / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この研究は、ゼロショットLLMが報道ジャンルごとに異なる信頼性判断基準を適用しているのか、特にエンタメニュースとハードニュースの間で検証するものです。
GossipCop（FakeNewsNet）を用いた同一データ内の設計により、4つの最先端モデルのうちDeepSeek-V3.2とGPT-5.2では、正当なエンタメニュースに対する誤検知率が有意に高くなり、それぞれ10.1ポイントと8.8ポイントの差が確認されました。
一方でClaude Opus 4.6とGemini 3 Flashでは同様のジャンル非対称性は見られず、効果はモデル依存であることが示されています。
スタイル差し替え実験では変化は限定的かつ一貫しないため、非対称性が単に文章のレジスター（文体）だけに起因するものではないことが示唆されます。
プロンプトによる緩和も一律ではなく、モデルを「エンタメニュースのファクトチェッカー」として位置づけるとDeepSeek-V3.2の誤検知が約50%減る一方で、GPT-5.2には大きな改善が見られませんでした。定性的な分析では、私生活に関する主張を本質的に検証不可能とみなす、あるいはエンタメ報道を認識論的に弱いジャンルとして扱うといった誤りのパターンが繰り返し現れることが示され、総合的な精度指標では構造化された誤検知が見えにくい可能性が指摘されます。

Abstract

大規模言語モデル（LLM）は、自動化されたニュースの信頼性評価にますます用いられている一方で、ジャーナリスティックなジャンルをまたいで公平な基準を適用しているかどうかは不明なままです。本研究では、ゼロショットのLLMが、正当な娯楽ニュースを偽として誤分類する可能性は、正当なハードニュースよりも高いのかを検討します。FakeNewsNet の GossipCop を用いたデータセット内デザインにより、4つのフロンティアモデルを分析したところ、明確ではあるもののモデル固有のジャンル非対称性が見られました。具体的には、DeepSeek-V3.2 と GPT-5.2 は、それぞれ誤検出率の差が 10.1 および 8.8 パーセントポイントでした（いずれも

p < .001

）。一方で、Claude Opus 4.6 と Gemini 3 Flash では、同等の差は見られませんでした。スタイル入れ替えの実験では、変化は限定的かつ一貫性のないものであり、この非対称性が単に文体のレジスターだけに還元できないことを示唆しています。プロンプトに基づく緩和も可能ですが、汎用的ではありません。すなわち、モデルを「娯楽ニュースのファクトチェック担当者」として枠付けすると、DeepSeek-V3.2 の誤検出は約 50 extbackslash% 減少するものの、再現率の低下は検出されませんでした。しかし GPT-5.2 では大きな改善は得られませんでした。探索的な定性コーディングにより、サンプルされた誤検出には、2つの反復的な誤りパターンがあることも示唆されました。1つは、プライベート領域の出来事に関する主張を本質的に検証不能なものとして扱うこと、もう1つは、娯楽ジャーナリズムを認識論的に弱いジャンルとして割り引くことです。これらを総合すると、集計された性能指標は、正当なジャーナリズムの内部に構造化された誤検出を見えにくくしうることがわかります。本研究は、LLM による信頼性評価が真偽の主張を評価するだけでなく、ジャーナリスティックなジャンルの正当性を差別的に認識している可能性があることを論じ、したがって評価には全体の精度に加えて、ジャンル別の偽陽性分析を含めるべきだと主張します。