AWSは仮想的なクラウドデスクトップをエージェントに操作させることを可能にしている――クリック1回あたり最大50万トークンのコストになるかもしれない
ベンダーのベンチマークは、APIを使えば仕事をより速く、より安くこなせると示す
Amazon Web Servicesは、クラウド上のWorkSpaces仮想PCでAIエージェントを自由に動かせるようにした。
新サービスは現在プレビュー段階で、ユーザーはAmazonのIdentity and Access Managementサービスを使って、エージェントにアイデンティティを割り当てられる。そうした資格情報を使うことで、エージェントは固有の事前署名済みURLを通じてWorkSpaceにアクセスし、クラウドPC上で動いている任意のアプリを操作できる。
AWSの広報担当者によれば、そのクラウド上の巨大なマシンでは、開発者は各エージェントに一意のアイデンティティを付与するべきだという。そうすることで、活動の追跡が容易になり、エージェントによる行為と人間が行う活動を区別しやすくなるからだという。
また、エージェントは「管理されたMCPエンドポイントを通じて接続し、スクリーンショット、マウス操作、テキスト入力といったデスクトップツールへの統制されたアクセスを提供する」とも聞いている。これはおそらく「ガードレール(制約)を維持しながら、エージェントがデスクトップとやり取りするための制御されたインターフェースを開発者に提供する」ことになる。
エージェントに専用のPCを与える主な理由は、さまざまなタスクを実行するためにソフトウェアを自動的に使えるようにすることだ。クラウド上、あるいは仮想PCは、このシナリオに適している。なぜなら、これらはエフェメラル(使い捨て)にできるからだ。つまり、エージェントが用事を済ませるのに十分な時間だけ動かし、その後シャットダウンできる。エージェントを隔離された仮想プライベートクラウドに置くことのほうが、LANやデータセンターで自由に動かすより望ましい可能性もある。物理PCに全面的に依存している組織、あるいはローカルマシン上のVMをエージェントに操作させるのを好まない組織にとっても、オンプレミスの仮想PCを用意する複雑さと比べれば、クラウドPCのほうを選びたくなるかもしれない。
AWSは、WorkSpacesサービスが提供する多数のインスタンスタイプすべてに対して、エージェントによるアクセスを許可する。そして、それらは、単一の仮想CPUと2GBのRAMを備えた小規模インスタンスから、GPUを搭載し32 vCPU、256GBのRAMを詰め込んだ大規模なものまで幅広い。AmazonはWorkSpacesを、停止しないアクセスを可能にする月額の定額料金、またはより小さい料金に加えて時間課金のいずれかで貸し出している。
クラウドPCをエージェントに操作させる取り組みはAmazonだけではない。MicrosoftもWindows 365サービスのバージョンを作っており、その「エージェント専用」だ。
さらなる背景情報
エージェントはコンピュータビジョンを使ってPCを操作します。通常はデスクトップのスクリーンショットや動画を撮り、それが「見た」ものを解釈してから、クリック、入力、スクロールを行う許可が与えられていると前提して、アクションを実行します。
AIコーディングの企業Reflexは、その作業に必要な工程が非自明だと考えています。同社は最近、ブラウザ利用型のビジョンエージェントがドロップダウンメニューをクリックするのに50万トークン分必要だと主張する研究を公開し、さらに結論として、エージェントを使うのはAPIを使うより45倍もコストが高くなり得るとしています。
同社は、自身のアプローチで同じ結果が得られるかを試せるように、ベンチマークツールをGitHubで公開しています。
ブログの中で、Reflexの成長責任者Palash Awasthiは、より良いAIモデルがいずれコストを下げるだろうと認めています。しかし彼は、エージェントを使って仕事を完了するには、APIを使うよりも常に多くのステップが必要になると主張しています。
つまり、クラウド上のデスクトップを借りる前に、まずはそれを確認してみたほうがいいのかもしれません? ®




