Browser-Use / Computer-Use:画面操作型エージェント

AI Navigate Original / 2026/5/16

共有:

要点

  • 画面操作型は人のように操作し API 無しの業務も自動化
  • 調査・フォーム入力・転記・複数アプリ連結ができる
  • リスクは誤操作の影響大・権限の広さ・インジェクション
  • サンドボックス・権限最小・人の承認・ログ・監督下で開始

Browser-Use・Computer-Use と呼ばれる技術は、AI に画面そのものを人間のように操作させる仕組みです。多くの AI は「API(プログラム同士をつなぐ窓口)」を通して外部サービスを動かしますが、社内の古い業務システムや一般の Web サイトには、そんな窓口が用意されていないことのほうがむしろ普通です。そこで、画面のスクリーンショットを見て、マウスを動かし、ボタンを押し、文字を打つ——つまり人がやっている操作を AI に肩代わりさせるのが、この技術の発想です。便利な反面、実際の画面を触るぶんだけ事故の影響も大きい。この記事では、仕組み・代表的な製品・安全な使い方を、初めての方にも分かるように整理します。

人と同じ「見る→考える→操作する」を繰り返す ① 画面を見る AI(判断) 次の一手を決める click / 入力 ③ 操作する

FIG.1 操作するたびに画面が変わるので、また見て・考えて・操作する——この小さなループの連続でタスクをこなす

01なぜ「画面操作」が必要なのか

世の中の自動化の多くは API でつながっています。たとえば天気アプリは気象データの API を呼び、決済アプリは決済会社の API を呼ぶ——人間が画面を見なくても、プログラム同士が直接やり取りします。ところが現実の業務では、API が用意されていないシステムが山ほどあります。社内で長年使われてきた古い基幹システム、取引先のポータルサイト、ログインしないと中身が見えない管理画面。こうした「人が画面で操作するしかない」場所は、これまで自動化の対象外でした。

画面操作型エージェントは、まさにその空白を埋めます。API がなくても、画面さえあれば操作できるのが最大の強みです。具体的には次のような作業に向きます。

画面しかない業務の自動化

API のない社内システムや取引先サイトに、AI がログインして入力・確認・転記を代行する。

調べて・写す作業

複数サイトを巡回して情報を集め、フォームに入力したり、別の表に転記したりする定型作業。

アプリをまたぐ連結

「Aで調べた結果をBに入力し、Cで確認する」のような、複数ツールにまたがる一連の手順。

02AI は画面をどう「見て」いるのか

人間は目で画面を見ますが、AI が画面を理解する方法は一つではありません。大きく分けて三つの見方があり、それぞれ得意・不得意が異なります。ここを知っておくと、製品ごとの性格の違いが腑に落ちます。

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。