Browser-Use / Computer-Use：画面操作型エージェント

Browser-Use・Computer-Use と呼ばれる技術は、AI に画面そのものを人間のように操作させる仕組みです。多くの AI は「API（プログラム同士をつなぐ窓口）」を通して外部サービスを動かしますが、社内の古い業務システムや一般の Web サイトには、そんな窓口が用意されていないことのほうがむしろ普通です。そこで、画面のスクリーンショットを見て、マウスを動かし、ボタンを押し、文字を打つ——つまり人がやっている操作を AI に肩代わりさせるのが、この技術の発想です。便利な反面、実際の画面を触るぶんだけ事故の影響も大きい。この記事では、仕組み・代表的な製品・安全な使い方を、初めての方にも分かるように整理します。

FIG.1　操作するたびに画面が変わるので、また見て・考えて・操作する——この小さなループの連続でタスクをこなす

01なぜ「画面操作」が必要なのか

世の中の自動化の多くは API でつながっています。たとえば天気アプリは気象データの API を呼び、決済アプリは決済会社の API を呼ぶ——人間が画面を見なくても、プログラム同士が直接やり取りします。ところが現実の業務では、API が用意されていないシステムが山ほどあります。社内で長年使われてきた古い基幹システム、取引先のポータルサイト、ログインしないと中身が見えない管理画面。こうした「人が画面で操作するしかない」場所は、これまで自動化の対象外でした。

画面操作型エージェントは、まさにその空白を埋めます。API がなくても、画面さえあれば操作できるのが最大の強みです。具体的には次のような作業に向きます。

画面しかない業務の自動化

API のない社内システムや取引先サイトに、AI がログインして入力・確認・転記を代行する。

調べて・写す作業

複数サイトを巡回して情報を集め、フォームに入力したり、別の表に転記したりする定型作業。

アプリをまたぐ連結

「Aで調べた結果をBに入力し、Cで確認する」のような、複数ツールにまたがる一連の手順。

02AI は画面をどう「見て」いるのか

人間は目で画面を見ますが、AI が画面を理解する方法は一つではありません。大きく分けて三つの見方があり、それぞれ得意・不得意が異なります。ここを知っておくと、製品ごとの性格の違いが腑に落ちます。

Browser-Use / Computer-Use：画面操作型エージェント

要点

01なぜ「画面操作」が必要なのか

02AI は画面をどう「見て」いるのか

続きを読むには無料登録が必要です

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer