DeGenTWeb:LLMが主導するWebサイトの第一見解

arXiv cs.AI / 2026/5/4

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、LLMが生成したコンテンツが「Webを席巻している」という従来の主張は、代表的なサンプリングや透明性のある手法に基づいていないことが多いと指摘しています。
  • DeGenTWebを提案し、LLMがほぼ人手なしで生成したコンテンツによって構成される「LLM支配型サイト」を体系的に特定する仕組みを示します。
  • 著者らは、LLM生成文検出器をWebページ上で使えるように適応し、複数ページの検出結果を集約してサイト単位の分類精度を高めます。
  • DeGenTWebに基づく分析では、LLM支配型サイトはCommon CrawlデータおよびBingの検索結果の両方で高い割合で存在し、その比率は時間とともに増加していることが分かります。
  • 最新のLLMが検出を回避しやすい文章生成能力を高めるため、今後そのようなサイトを正確に特定するのは難しくなる可能性が高いと結論づけています。

Abstract

多くの最近の報道では、大規模言語モデル(LLM)が生成するコンテンツがWebを席巻していると主張されています。しかし、これらの主張は通常、Webの代表的なサンプルに基づいておらず、その裏にある手法はしばしば不透明です。さらに、人が書いたコンテンツを誤ってLLMの生成物だと帰属してしまう可能性を最小化することを目指すと、LLM生成テキストの検出器は、宣伝されているほどにははるかに性能が悪いことが分かります。その結果、Web上におけるLLMコンテンツの真の普及度や特徴について理解できていません。 本稿では、LLM優勢のWebサイトを体系的に特定するDeGenTWebを説明します。これは、人間の入力がほとんどない状態でLLMを用いてコンテンツが生成されているサイトです。さらに、LLM生成テキストの検出器をWebページ上で使用するためにどのように適応させるか、そしてサイト全体の正確な分類を行うために、1つのサイトに属する複数ページからの検出結果をどのように集約するかを示します。DeGenTWebを用いると、LLM優勢サイトの割合はCommon CrawlのデータおよびBingの検索結果の両方で非常に高く、その割合は時間とともに増加していることが分かります。また、最新のLLMが持つ能力を踏まえると、このようなサイトを引き続き正確に識別することは困難であるように見えることも示します。