DeGenTWeb:LLMが主導するWebサイトの第一見解
arXiv cs.AI / 2026/5/4
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、LLMが生成したコンテンツが「Webを席巻している」という従来の主張は、代表的なサンプリングや透明性のある手法に基づいていないことが多いと指摘しています。
- DeGenTWebを提案し、LLMがほぼ人手なしで生成したコンテンツによって構成される「LLM支配型サイト」を体系的に特定する仕組みを示します。
- 著者らは、LLM生成文検出器をWebページ上で使えるように適応し、複数ページの検出結果を集約してサイト単位の分類精度を高めます。
- DeGenTWebに基づく分析では、LLM支配型サイトはCommon CrawlデータおよびBingの検索結果の両方で高い割合で存在し、その比率は時間とともに増加していることが分かります。
- 最新のLLMが検出を回避しやすい文章生成能力を高めるため、今後そのようなサイトを正確に特定するのは難しくなる可能性が高いと結論づけています。
