robots.txt、メタタグ、またはサーバーレベルのルールを通じてAIクローラーを積極的にブロックしているWebサイトの75%は、それでもなおChatGPT、Perplexity、GeminiによるAI生成回答の中に登場します。ブロックしても引用は止まりません。止まるのは、あなたが引用をコントロールすることです。
この数字はPosition Digitalが2026年4月に発表した新しいクロスプラットフォームの引用分析に基づいており、AIエンジンが自社のコンテンツを使っていることをブランドが見つけたときに最もよく起きる本能――「ドアを閉める」――を打ち砕きます。
Why Brands Block AI Bots
理屈は筋が通っています。OpenAI、Google、Anthropic、Perplexityはいずれも、コンテンツを取り込むためにWeb全体にクローラーを送ります。これらのボットにはChatGPT-User、Googlebot、CCBot、PerplexityBotのようなユーザーエージェント文字列があります。robots.txtファイルに追加し、「入ってくるな」と伝えることができます。
多くのサイトがまさにそれを行いました。2023〜2024年のAIトレーニングデータをめぐる論争の後、大手のニュース媒体からニッチなSaaSブログまで、既知のAIユーザーエージェントを対象としたDisallowルールを追加しました。
結果:それでも結局、ほとんどがAIの回答の中に登場します。
The Data: Blocking vs. Citation Reality
Position Digitalの2026年4月の分析では、ChatGPT、Perplexity、GeminiにおけるAIの引用パターンを、何千というドメインに対して追跡しました。重要な発見は次の通りです。AIボットのブロックを有効化しているサイトの75%が、自社コンテンツに関連するクエリでAI生成の回答に依然として登場したということです。
Demand Localからデータを分離:
- ChatGPTの上位で引用されたページの76.4%は、直近30日以内に更新されていました。
- Perplexityの引用の50%は、13週間未満のコンテンツからのものでした。
- RedditはAI回答の46.4%に登場しました。YouTubeは31.8%です。
- Google AI Overviewsは、相対的なクリック低下が46.7%でした。
Four Reasons Blocking Fails
1. AI Engines Use Multiple Data Sources
ChatGPTは、ライブのWebクローリングからだけ学習しているわけではありません。知識は、トレーニングデータセット、RAGパイプライン、そしてユーザーが投稿したコンテンツから得られます。誰かがURLをChatGPTに貼り付けて要約を依頼した場合、そのコンテンツはrobots.txtに関係なくシステムに入ります。
2. Training Data Already Contains Your Content
botブロックを追加する前に、あなたのWebサイトが一般公開されていたなら、AIモデルはすでにあなたのコンテンツで学習している可能性が高いです。今日robots.txtファイルを追加しても、それを遡って取り除くことはできません。
3. Third-Party Mentions Create Independent Citation Paths
他のサイトは、あなたに言及し、あなたへのリンクを張り、あなたのコンテンツを引用することができます。AIエンジンは、こうした第三者ソースを絶えず引用します。自社サイトをブロックすると、AIによる物語の主導権を手放すことになります。
4. Content Freshness Outranks Crawl Permission
ChatGPTの主要な引用のうち3分の2超は、30日以内に更新されたページからのものです。週次で更新されるページは、クローリング方針に関係なく、静的な競合よりも上位に来ます。
What to Do Instead: The GEO Offensive
- クローリングを許可し、それに最適化する。llms.txtファイルを作成し、AIクローラーに構造化された要約を提供します。
- 毎週、新しいコンテンツを公開する。ページを鮮度のウィンドウに保ちます。
- AIによる抽出を見据えてコンテンツを構造化する。各セクションの最初の1〜2文で回答を先出しします。
- 6つ以上のドメインにまたがってエンティティの権威を構築する。独立したサイトでのブランド言及は信頼性のシグナルになります。
- AIの可視性を能動的に追跡する。プラットフォーム間で引用率を測定します。
FAQ
robots.txtはAIトレーニングをブロックしますか?いいえ。対応しているクローラーに対して、あなたのサイトにアクセスしないよう指示するだけです。
完全にオプトアウトできますか?現実的にはできません。第三者による言及が、あなたのブロックを迂回します。
最も効果的なアクションは?重要なコンテンツを30日ごとに更新してください。鮮度は最も強力な引用シグナルです。
AIの可視性スコアをaudit.searchless.aiで無料チェックしてください。


