AIボットをブロックするサイトの75%はそれでも引用される——なぜブロックが効かないのか

Dev.to / 2026/5/1

💬 オピニオンSignals & Early TrendsTools & Practical UsageIndustry & Market Moves

要点

  • Position Digital(2026年4月)のクロスプラットフォーム分析では、ChatGPT、Perplexity、GeminiのAI生成回答に自社コンテンツが登場しているのは、AIクローラを積極的にブロックしているサイトの75%に上ることが分かった。
  • 同レポートは、ブロッキングは「引用の制御」ではなく主に「クロールの制御」を妨げるだけだと主張している。
  • モデルは複数の入力ソースに基づけるため、robots.txtやサーバー側のブロックを追加する前にすでに学習データに自社内容が含まれている可能性があり、さらに第三者による言及が別の引用経路を生むと指摘する。
  • また、コンテンツの鮮度がクロール許可より優先され得ることも示しており、ChatGPTで上位引用されるページの多くは直近で更新されていたという。
  • 結論として、robots.txt等で「締め出す」だけではAIからの言及や引用は減らない可能性があり、ブランドがAI上での文脈をコントロールできる範囲がむしろ狭まる点が重要だ。

robots.txt、メタタグ、またはサーバーレベルのルールを通じてAIクローラーを積極的にブロックしているWebサイトの75%は、それでもなおChatGPT、Perplexity、GeminiによるAI生成回答の中に登場します。ブロックしても引用は止まりません。止まるのは、あなたが引用をコントロールすることです。

この数字はPosition Digitalが2026年4月に発表した新しいクロスプラットフォームの引用分析に基づいており、AIエンジンが自社のコンテンツを使っていることをブランドが見つけたときに最もよく起きる本能――「ドアを閉める」――を打ち砕きます。

Why Brands Block AI Bots

理屈は筋が通っています。OpenAI、Google、Anthropic、Perplexityはいずれも、コンテンツを取り込むためにWeb全体にクローラーを送ります。これらのボットにはChatGPT-UserGooglebotCCBotPerplexityBotのようなユーザーエージェント文字列があります。robots.txtファイルに追加し、「入ってくるな」と伝えることができます。

多くのサイトがまさにそれを行いました。2023〜2024年のAIトレーニングデータをめぐる論争の後、大手のニュース媒体からニッチなSaaSブログまで、既知のAIユーザーエージェントを対象としたDisallowルールを追加しました。

結果:それでも結局、ほとんどがAIの回答の中に登場します。

The Data: Blocking vs. Citation Reality

Position Digitalの2026年4月の分析では、ChatGPT、Perplexity、GeminiにおけるAIの引用パターンを、何千というドメインに対して追跡しました。重要な発見は次の通りです。AIボットのブロックを有効化しているサイトの75%が、自社コンテンツに関連するクエリでAI生成の回答に依然として登場したということです。

Demand Localからデータを分離:

  • ChatGPTの上位で引用されたページの76.4%は、直近30日以内に更新されていました。
  • Perplexityの引用の50%は、13週間未満のコンテンツからのものでした。
  • RedditはAI回答の46.4%に登場しました。YouTubeは31.8%です。
  • Google AI Overviewsは、相対的なクリック低下が46.7%でした。

Four Reasons Blocking Fails

1. AI Engines Use Multiple Data Sources

ChatGPTは、ライブのWebクローリングからだけ学習しているわけではありません。知識は、トレーニングデータセット、RAGパイプライン、そしてユーザーが投稿したコンテンツから得られます。誰かがURLをChatGPTに貼り付けて要約を依頼した場合、そのコンテンツはrobots.txtに関係なくシステムに入ります。

2. Training Data Already Contains Your Content

botブロックを追加する前に、あなたのWebサイトが一般公開されていたなら、AIモデルはすでにあなたのコンテンツで学習している可能性が高いです。今日robots.txtファイルを追加しても、それを遡って取り除くことはできません。

3. Third-Party Mentions Create Independent Citation Paths

他のサイトは、あなたに言及し、あなたへのリンクを張り、あなたのコンテンツを引用することができます。AIエンジンは、こうした第三者ソースを絶えず引用します。自社サイトをブロックすると、AIによる物語の主導権を手放すことになります。

4. Content Freshness Outranks Crawl Permission

ChatGPTの主要な引用のうち3分の2超は、30日以内に更新されたページからのものです。週次で更新されるページは、クローリング方針に関係なく、静的な競合よりも上位に来ます。

What to Do Instead: The GEO Offensive

  1. クローリングを許可し、それに最適化する。llms.txtファイルを作成し、AIクローラーに構造化された要約を提供します。
  2. 毎週、新しいコンテンツを公開する。ページを鮮度のウィンドウに保ちます。
  3. AIによる抽出を見据えてコンテンツを構造化する。各セクションの最初の1〜2文で回答を先出しします。
  4. 6つ以上のドメインにまたがってエンティティの権威を構築する。独立したサイトでのブランド言及は信頼性のシグナルになります。
  5. AIの可視性を能動的に追跡する。プラットフォーム間で引用率を測定します。

FAQ

robots.txtはAIトレーニングをブロックしますか?いいえ。対応しているクローラーに対して、あなたのサイトにアクセスしないよう指示するだけです。

完全にオプトアウトできますか?現実的にはできません。第三者による言及が、あなたのブロックを迂回します。

最も効果的なアクションは?重要なコンテンツを30日ごとに更新してください。鮮度は最も強力な引用シグナルです。

AIの可視性スコアをaudit.searchless.aiで無料チェックしてください。