AI
AIでWebサイト上をクリックして回ると、APIを使うだけの場合の45倍ものトークンを消費する
AIエージェントにとって「見る」ことは高くつく
コンピューター操作を自動化するためにAIエージェントを導入する企業は、それらのエージェントが人間の視覚的なやり取りをまねようとする場合、必要以上に多額の費用をかけてしまっている可能性があります。
エンタープライズ向けアプリケーション基盤のReflexは最近、ビジョン型エージェントとAPI型エージェントを比較しようと取り組みました。
この文脈でいうビジョンエージェントとは、画像処理と光学文字認識(OCR)に頼ってアプリケーションを操作することで、人間のやり取りを模倣するAIエージェントのことです。今回は、browser-use 0.12 を使って、ウェブアプリのユーザーインターフェースをClaude Sonnetがナビゲートするというものです。これは、自動化されたWebブラウザー操作のためのツールです。
ここでいうAPIエージェントとは、Claude SonnetがツールやAPIを介してWebアプリとやり取りすることを指します。エージェントは、解析が必要なWebページのスクリーンショットではなく、UIが呼び出すのと同じ処理メカニズムを呼び出し、その応答として構造化されたデータを受け取ります。
「2つのエージェントが同じ起動中のアプリを対象にしていました。1つはスクリーンショットとクリックによってUIを操作し、もう1つはアプリのHTTPエンドポイントを直接呼び出します」とReflexの成長責任者であるPalash Awasthi氏はブログ投稿で説明しています。「同じClaude Sonnet、同じ固定のデータセット、同じ課題です。変数はインターフェースだけです。」
各エージェントに提示された次の課題は次の通りです。「顧客のスミスが最近の注文について不満を申し立てています。注文数が最も多いスミスを見つけ、そのスミスの保留中のレビューをすべて受け入れ、さらにそのスミスが直近に注文した注文を『配達済み』としてマークしてください。」
Awasthi氏によると、APIエージェントはわずか8回の呼び出しで課題を完了しました。保留中の顧客レビューを一覧表示し、それらを受け入れ、注文を配達済みとしてマークしたとのことです。
返却形式: {"translated": "翻訳されたHTML"}しかし、ビジョンエージェントは4件の保留中のレビューのうち1件しか見つけられませんでした。ページをスクロールできず、画面外に隠れていた残り3件のレビューを見落としたためです。
視覚的にウェブページを解析し解釈することは、API呼び出しやツールとやり取りすることよりも、AIモデルにとって本質的に難しい作業です。
プロンプトを見直してビジョンモデルの性能が向上するようにしたときでも、ビジョンエージェントは依然として約17分かかり、APIエージェントの約20秒と比べて大幅に長くなりました。ビジョンエージェントはまた、消費トークン数もはるかに多く、約45倍でした。
同社は、結果の再現を試したい人向けに、テストをベンチマークとして 公開しました。
Awasthiは、2つのアプローチのコスト差はアーキテクチャに起因すると述べています。つまり、ビジョンエージェントは見なければならず、見ること自体が高コストであるためです。各スクリーンショットを処理するのに、入力トークンが数千個単位で必要になります。
Anthropicによると、Claude Sonnet 4.6で1000×1000ピクセルの画像を処理するのに約1,334トークンかかります。
ビジョンエージェントはタスクを完了するために、入力トークンを約500,000、出力トークンを約38,000消費しました。APIエージェントは、入力トークンを約12,150、出力トークンを約934消費しました。
Awasthiにとっての教訓は、ビジョンエージェントは制御できないアプリとやり取りする際に必要になることがある一方で、内向きに設計されたエージェントはAPIを対象とすべきだということです。 ®




