Webサイト上でクリック操作するためにAIを使うと、API利用だけの場合の45倍のトークンを消費する

The Register / 2026/5/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 記事は、Webサイト上でクリック操作するAI「ビジョン」エージェントが、APIを直接使うエージェントよりもトークンを約45倍消費するとするベンチマーク結果を伝えています。
  • 主なポイントは、「見る」こと(視覚的なやり取り)が、構造化されたAPIアクセスよりも計算コスト/トークンコストが大きいという点です。
  • この結果から、可能であればAIによるWeb自動化ではAPIベースの連携のほうが大幅にコスト効率が高いことが示唆されます。
  • この記事は、視覚的ブラウジングとAPI呼び出しのどちらを採用するかを判断するための実務的な設計上の考慮点として位置づけています。

AI

AIでWebサイト上をクリックして回ると、APIを使うだけの場合の45倍ものトークンを消費する

AIエージェントにとって「見る」ことは高くつく

トーマス・クラバーン Thomas Claburn
Published

コンピューター操作を自動化するためにAIエージェントを導入する企業は、それらのエージェントが人間の視覚的なやり取りをまねようとする場合、必要以上に多額の費用をかけてしまっている可能性があります。

エンタープライズ向けアプリケーション基盤のReflexは最近、ビジョン型エージェントとAPI型エージェントを比較しようと取り組みました。

この文脈でいうビジョンエージェントとは、画像処理と光学文字認識(OCR)に頼ってアプリケーションを操作することで、人間のやり取りを模倣するAIエージェントのことです。今回は、browser-use 0.12 を使って、ウェブアプリのユーザーインターフェースをClaude Sonnetがナビゲートするというものです。これは、自動化されたWebブラウザー操作のためのツールです。

REG AD

ここでいうAPIエージェントとは、Claude SonnetがツールやAPIを介してWebアプリとやり取りすることを指します。エージェントは、解析が必要なWebページのスクリーンショットではなく、UIが呼び出すのと同じ処理メカニズムを呼び出し、その応答として構造化されたデータを受け取ります。

REG AD

「2つのエージェントが同じ起動中のアプリを対象にしていました。1つはスクリーンショットとクリックによってUIを操作し、もう1つはアプリのHTTPエンドポイントを直接呼び出します」とReflexの成長責任者であるPalash Awasthi氏はブログ投稿で説明しています。「同じClaude Sonnet、同じ固定のデータセット、同じ課題です。変数はインターフェースだけです。」

各エージェントに提示された次の課題は次の通りです。「顧客のスミスが最近の注文について不満を申し立てています。注文数が最も多いスミスを見つけ、そのスミスの保留中のレビューをすべて受け入れ、さらにそのスミスが直近に注文した注文を『配達済み』としてマークしてください。」

Awasthi氏によると、APIエージェントはわずか8回の呼び出しで課題を完了しました。保留中の顧客レビューを一覧表示し、それらを受け入れ、注文を配達済みとしてマークしたとのことです。 

返却形式: {"translated": "翻訳されたHTML"}

しかし、ビジョンエージェントは4件の保留中のレビューのうち1件しか見つけられませんでした。ページをスクロールできず、画面外に隠れていた残り3件のレビューを見落としたためです。

視覚的にウェブページを解析し解釈することは、API呼び出しやツールとやり取りすることよりも、AIモデルにとって本質的に難しい作業です。

プロンプトを見直してビジョンモデルの性能が向上するようにしたときでも、ビジョンエージェントは依然として約17分かかり、APIエージェントの約20秒と比べて大幅に長くなりました。ビジョンエージェントはまた、消費トークン数もはるかに多く、約45倍でした。

同社は、結果の再現を試したい人向けに、テストをベンチマークとして 公開しました。

Awasthiは、2つのアプローチのコスト差はアーキテクチャに起因すると述べています。つまり、ビジョンエージェントは見なければならず、見ること自体が高コストであるためです。各スクリーンショットを処理するのに、入力トークンが数千個単位で必要になります。

REG AD

Anthropicによると、Claude Sonnet 4.6で1000×1000ピクセルの画像を処理するのに約1,334トークンかかります。 

ビジョンエージェントはタスクを完了するために、入力トークンを約500,000、出力トークンを約38,000消費しました。APIエージェントは、入力トークンを約12,150、出力トークンを約934消費しました。

Awasthiにとっての教訓は、ビジョンエージェントは制御できないアプリとやり取りする際に必要になることがある一方で、内向きに設計されたエージェントはAPIを対象とすべきだということです。 ®