Browser-Use・Computer-Use と呼ばれる技術は、AI に画面そのものを人間のように操作させる仕組みです。多くの AI は「API(プログラム同士をつなぐ窓口)」を通して外部サービスを動かしますが、社内の古い業務システムや一般の Web サイトには、そんな窓口が用意されていないことのほうがむしろ普通です。そこで、画面のスクリーンショットを見て、マウスを動かし、ボタンを押し、文字を打つ——つまり人がやっている操作を AI に肩代わりさせるのが、この技術の発想です。便利な反面、実際の画面を触るぶんだけ事故の影響も大きい。この記事では、仕組み・代表的な製品・安全な使い方を、初めての方にも分かるように整理します。
FIG.1 操作するたびに画面が変わるので、また見て・考えて・操作する——この小さなループの連続でタスクをこなす
01なぜ「画面操作」が必要なのか
世の中の自動化の多くは API でつながっています。たとえば天気アプリは気象データの API を呼び、決済アプリは決済会社の API を呼ぶ——人間が画面を見なくても、プログラム同士が直接やり取りします。ところが現実の業務では、API が用意されていないシステムが山ほどあります。社内で長年使われてきた古い基幹システム、取引先のポータルサイト、ログインしないと中身が見えない管理画面。こうした「人が画面で操作するしかない」場所は、これまで自動化の対象外でした。
画面操作型エージェントは、まさにその空白を埋めます。API がなくても、画面さえあれば操作できるのが最大の強みです。具体的には次のような作業に向きます。
画面しかない業務の自動化
API のない社内システムや取引先サイトに、AI がログインして入力・確認・転記を代行する。
調べて・写す作業
複数サイトを巡回して情報を集め、フォームに入力したり、別の表に転記したりする定型作業。
アプリをまたぐ連結
「Aで調べた結果をBに入力し、Cで確認する」のような、複数ツールにまたがる一連の手順。
02AI は画面をどう「見て」いるのか
人間は目で画面を見ますが、AI が画面を理解する方法は一つではありません。大きく分けて三つの見方があり、それぞれ得意・不得意が異なります。ここを知っておくと、製品ごとの性格の違いが腑に落ちます。