GEOScore AIの創業者、William Wang
robots.txtファイルはGooglebot向けに設計されていました。しかし2026年には、20以上のAIクローラーがあなたのサイトにアクセスしています――GPTBot、ClaudeBot、PerplexityBot、Google-Extended、Bytespider、CCBotなど。ほとんどのWebサイト運営者は、どのAIボットが自分のサイトを訪れているのか、コンテンツで何をしているのか、そしてアクセスをどう制御できるのかを把握できていません。
このガイドでは、robots.txtを通じてAIクローラーを管理するために必要なことをすべて解説します。
2026年のAIクローラー環境
知っておくべき主要なAIクローラーは以下です:
| クローラー | 企業 | 目的 |
|---|---|---|
| GPTBot | OpenAI | 学習データ+ChatGPTの閲覧 |
| ChatGPT-User | OpenAI | ChatGPTのためのリアルタイム閲覧 |
| ClaudeBot | Anthropic | Claudeのための学習データ |
| PerplexityBot | Perplexity | リアルタイムの検索結果 |
| Google-Extended | Geminiの学習データ | |
| Googlebot | 従来の検索+AIオーバービュー | |
| Bytespider | ByteDance | TikTokのAI機能 |
| CCBot | Common Crawl | 多くのAIモデルで使われるオープンデータセット |
| FacebookBot | Meta | Meta製品のためのAI学習 |
| Amazonbot | Amazon | Alexa+Amazon AI |
| AppleBot-Extended | Apple | Apple Intelligenceの機能 |
戦略的な判断:許可するか、ブロックするか?
robots.txtを編集する前に、戦略が必要です。アプローチは3つあります:
1. すべて許可(ほとんどのサイトにおすすめ)
AIの可視性を最大化したい――ChatGPTに引用される、Perplexityの結果に表示される、AIオーバービューに登場する――なら、すべてのAIクローラーを許可します。
# すべてのAIクローラーを許可
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
2. 選択的なアクセス
特定のAIクローラーは許可し、その他をブロックします。いくつかのAIプロダクトでは表示されたいが、学習データには貢献したくない場合に有用です。
# リアルタイム検索ボット(あなたを引用する)を許可
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# 学習専用の クローラー
を ブロック
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
3. すべてのAIをブロック(おすすめしません)
これにより、AI検索に対して完全に見えなくなります。特定の法的またはビジネス上の理由がある場合にのみ行ってください。
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
よくあるミス
1. 誤ってAIクローラーをブロックしてしまう
多くのセキュリティプラグインやCDNのデフォルト設定では、未知のユーザーエージェントがブロックされます。WAFやCloudflareのルールがAIボットを拒否していないか確認してください。
2. Google-Extendedをブロックするが、AIオーバービューを望む場合
Google-Extendedは、あなたのコンテンツがGeminiの学習に使われるかどうかを制御します。しかしブロックすると、AIオーバービューでの可視性にも影響する可能性があります。この点に注意してください。
3. robots.txtをまったく用意していない
robots.txtファイルがない場合、すべてのクローラー(AIを含む)はデフォルトで許可されます。これは実際にほとんどのサイトでは問題ありませんが、明示的なファイルがあることで「AIへの対応を意図している」ことが示せます。
4. AIボットを捕捉してしまうワイルドカードを使う
User-agent: *
Disallow: /private/のようなルールは問題ありませんが、ワイルドカードのルールによって、誤ってAIクローラーが公開コンテンツにアクセスすることまで制限されないようにしてください。
現在のAIクローラーのアクセス状況を確認する方法
手動で確認
yoursite.com/robots.txtにアクセスし、上で挙げたAIユーザーエージェントを対象にしたDisallowルールがないか確認してください。
自動で確認
GEOScore AIの無料AI Crawler Access Checkerを使ってください。主要なすべてのAIクローラーに対してあなたのrobots.txtをテストし、許可されているボット/ブロックされているボットを正確に教えてくれます。
robots.txt + llms.txt の組み合わせ
AIの可視性を最大化するには、robots.txt(アクセスを制御)とllms.txt(AIの理解を導く)を組み合わせます:
- robots.txt: 「はい、私のサイトをクロールしていいです」 返却形式: {"translated": "翻訳されたHTML"}
- llms.txt: "ここに私のサイトが何についてで、重要な情報がどこにあるかを示します"
これらが揃うことで、技術的なGEO(検索エンジン最適化)対応の土台が形成されます。
完璧なrobots.txtの生成
新しくゼロから始める場合、または既存のファイルを最適化したい場合は、GEOScore AIの無料のAI Robots.txt Generatorを使ってください。サイトの構造と可視性の目標に基づいて、AI最適化されたrobots.txtを作成します。
AIクローラーのアクティビティ監視
robots.txtを更新したら、サーバーログを監視して、実際にどのAIボットが訪問しているかを確認してください:
# アクセスログでAIクローラーを確認
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended|ChatGPT-User" /var/log/nginx/access.log | awk '{print $1, $14}' | sort | uniq -c | sort -rn
これにより、どのAIクローラーが訪問しているか、どれくらいの頻度で訪問しているか、そしてどのページにアクセスしているかがわかります。
完全な監査(フル監査)
robots.txtは、AI検索での可視性を決める9つのシグナルのうちの1つにすぎません。9つすべてのシグナルをカバーする完全なGEO監査を行うには、無料スキャンをgeoscoreai.comで実行してください—60秒で完了し、サインアップは不要です。
William WangはGEOScore AIの創設者です。無料ツール:AI Robots.txt Generator と AI Crawler Access Checker。