AWS、仮想クラウドデスクトップをエージェントに操作させる機能を提供—1クリックで最大50万トークンの可能性

The Register / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market Moves

要点

  • AWSは、仮想のクラウドデスクトップを「エージェント」に操作させることで、より自律的なUIベースのワークフローを可能にする。
  • 記事では、このエージェント駆動のデスクトップ操作が、実装次第では1クリックあたり最大50万トークンといった非常に高額なトークンコストになり得る点を警告している。
  • 引用されたベンダーのベンチマークでは、エージェントによる純粋なUI操作だけに頼るのではなく、APIを使うことで同様の作業をより速く・より安く行えると主張されている。
  • 重要な示唆として、開発者はエージェントの設計を見直し、トークン使用量を抑えるために可能な限り直接のサービス/API呼び出しを優先するべきだという点が挙げられている。
  • LLMベースのエージェント導入では、従来の「デスクトップ自動化」とは異なる、AI固有の計算コストやトークンコストが加わるため、クラウド/自動化チームはコストモデルを再評価する必要がある。

PaaS + IaaS

AWSは仮想的なクラウドデスクトップをエージェントに操作させることを可能にしている――クリック1回あたり最大50万トークンのコストになるかもしれない

ベンダーのベンチマークは、APIを使えば仕事をより速く、より安くこなせると示す

Simon Sharwood Simon Sharwood
Published

Amazon Web Servicesは、クラウド上のWorkSpaces仮想PCでAIエージェントを自由に動かせるようにした。

新サービスは現在プレビュー段階で、ユーザーはAmazonのIdentity and Access Managementサービスを使って、エージェントにアイデンティティを割り当てられる。そうした資格情報を使うことで、エージェントは固有の事前署名済みURLを通じてWorkSpaceにアクセスし、クラウドPC上で動いている任意のアプリを操作できる。

AWSの広報担当者によれば、そのクラウド上の巨大なマシンでは、開発者は各エージェントに一意のアイデンティティを付与するべきだという。そうすることで、活動の追跡が容易になり、エージェントによる行為と人間が行う活動を区別しやすくなるからだという。

REG AD

また、エージェントは「管理されたMCPエンドポイントを通じて接続し、スクリーンショット、マウス操作、テキスト入力といったデスクトップツールへの統制されたアクセスを提供する」とも聞いている。これはおそらく「ガードレール(制約)を維持しながら、エージェントがデスクトップとやり取りするための制御されたインターフェースを開発者に提供する」ことになる。

REG AD

エージェントに専用のPCを与える主な理由は、さまざまなタスクを実行するためにソフトウェアを自動的に使えるようにすることだ。クラウド上、あるいは仮想PCは、このシナリオに適している。なぜなら、これらはエフェメラル(使い捨て)にできるからだ。つまり、エージェントが用事を済ませるのに十分な時間だけ動かし、その後シャットダウンできる。エージェントを隔離された仮想プライベートクラウドに置くことのほうが、LANやデータセンターで自由に動かすより望ましい可能性もある。物理PCに全面的に依存している組織、あるいはローカルマシン上のVMをエージェントに操作させるのを好まない組織にとっても、オンプレミスの仮想PCを用意する複雑さと比べれば、クラウドPCのほうを選びたくなるかもしれない。

AWSは、WorkSpacesサービスが提供する多数のインスタンスタイプすべてに対して、エージェントによるアクセスを許可する。そして、それらは、単一の仮想CPUと2GBのRAMを備えた小規模インスタンスから、GPUを搭載し32 vCPU、256GBのRAMを詰め込んだ大規模なものまで幅広い。AmazonはWorkSpacesを、停止しないアクセスを可能にする月額の定額料金、またはより小さい料金に加えて時間課金のいずれかで貸し出している。

クラウドPCをエージェントに操作させる取り組みはAmazonだけではない。MicrosoftもWindows 365サービスのバージョンを作っており、その「エージェント専用」だ。

エージェントはコンピュータビジョンを使ってPCを操作します。通常はデスクトップのスクリーンショットや動画を撮り、それが「見た」ものを解釈してから、クリック、入力、スクロールを行う許可が与えられていると前提して、アクションを実行します。

AIコーディングの企業Reflexは、その作業に必要な工程が非自明だと考えています。同社は最近、ブラウザ利用型のビジョンエージェントがドロップダウンメニューをクリックするのに50万トークン分必要だと主張する研究を公開し、さらに結論として、エージェントを使うのはAPIを使うより45倍もコストが高くなり得るとしています。

同社は、自身のアプローチで同じ結果が得られるかを試せるように、ベンチマークツールをGitHubで公開しています。

ブログの中で、Reflexの成長責任者Palash Awasthiは、より良いAIモデルがいずれコストを下げるだろうと認めています。しかし彼は、エージェントを使って仕事を完了するには、APIを使うよりも常に多くのステップが必要になると主張しています。

つまり、クラウド上のデスクトップを借りる前に、まずはそれを確認してみたほうがいいのかもしれません? ®

返却形式: {"translated": "翻訳されたHTML"}

AWS、仮想クラウドデスクトップをエージェントに操作させる機能を提供—1クリックで最大50万トークンの可能性 | AI Navigate