AIエージェントは、質問応答を超える能力を持ちます。ツールを使い、ウェブを閲覧し、コードを実行し、複数のステップからなるワークフローを自律的に完遂します。2026年には、いくつかの企業が「AIエージェント」を謳いますが、実際に提供しているのはどれなのでしょうか?
私たちはAIボットの能力を検証するために、Global Chatを特別に作りました。私たちのテストスイートは4つの能力を測定します:ナビゲーション(ボットはリンクを辿れるか?)、理解(特定のデータを抽出できるか?)、フォーム操作(フォームを記入できるか?)、および 暗号解析(ブロックチェーンアドレスを読むことができるか?)。
主要なAIエージェントをすべてテストした結果、以下のことが分かりました。
Tier 1: 完全に有能なエージェント
Claude(Claude Codeとコンピュータの使用を介して)と ChatGPT(ブラウジングとコードインプリタを介して)は、ウェブサイトをナビゲートし、情報を抽出し、ウェブフォームと対話することができます。彼らはエージェント型AIの最先端を体現しています。
両者には次の能力があります:
- ウェブサイト全体での多段階の指示に従うことができる
- 文脈データを用いてフォームに記入することができる
- 未構造化ページから構造化情報を抽出することができる
- エラーから回復し、失敗した動作を再試行できる
Tier 2: 部分的能力
Perplexity は閲覧と抽出が可能ですが、フォームとの対話はできません。Google Gemini にはウェブの基盤がありますが、自律的な動作は限られています。これらのツールは研究には優れていますが、真の自律エージェントではありません。
Tier 3: Crawlers Only
GPTBot、ClaudeBot、Googlebot、その他のウェブクローラーはページを訪問して内容をインデックス化しますが、対話には関与しません。訓練データと検索には不可欠ですが、自律的な意味でのエージェントではありません。
私たちがデータを追跡した結果、10のユニークなボットが global-chat.io にまたがっています:
- 全てのボットがナビゲーションテスト(リンク辿り)をクリア
- 約半数が理解テスト(データ抽出)をクリア
- いずれも フォーム操作テストや暗号解析テストをクリアしていません
過熱報道と現実のギャップ
2026年の多くの「AIエージェント」は、APIアクセスを備えた過大評価されたチャットボットにすぎません。真の自律能力—計画、エラー回復、複数ステップの実行—は、いまだごく一部のシステムに限られています。
ボトルネックは知性ではなく 信頼性 です。エージェントが有用であるためには、ほぼ常に99%の正確さで動作する必要がありますが、多くは70〜80%程度です。
自分で試してみる
私たちは 完全なテスト結果と方法論を公開しました。ボット能力のテストスイートはリアルタイムで実行中です — 訪問するすべてのAIクローラーを自動的にテストします。
AIボットの挙動に関する継続的な研究の一部です。併せて参照: AIボットを検出する方法 および AIウェブクローリングの経済学(2026年版)。