Web 操作 AI、ベンチマーク通過率が 2 倍近くに
AI エージェント開発入門Microsoft Research が Webwright を公開:2026年5月24日、Microsoft Research が「ターミナルネイティブ」な Web エージェント枠組み Webwright を発表した。クリック軌跡を逐一たどる従来の Web 自動化を「再利用可能な Playwright スクリプト」に置き換え、3 モジュール/約 1,000 行のシンプルな単一エージェントループで構成されている。GPT-5.4 を組み合わせた構成で、長時間タスクのベンチマーク「Odysseys」を 60.1%(ベース GPT-5.4 単体は 33.5%)、Online-Mind2Web を 86.7% で通過し、オープンソースなハーネスとしては当時最高の AutoEval スコアを記録。「複雑なオーケストレーションより、ツール側(再利用可能スクリプト)を太らせる」という設計指針は、本記事で触れた「道具箱を賢くする」考え方の実証例にあたる。
先月までの Web エージェントといえば、「ブラウザ上をクリックしながら目的地まで案内する」という逐次操作が主流でした。ページが変わるたびにモデルが判断し直すので、長めのタスクは途中で詰まることが多く、実用デモは短い操作しか見せられない状態でした。GPT-5.4 だけでベンチマーク Odysseys を 33.5% しか通過できない、というのが現状の数字です。今回、Microsoft Research が「クリック」ではなく「再利用スクリプト」でタスクをこなす設計を持ち込み、同じベースモデルで 60.1% まで引き上げました。
「Web 上の作業を AI に任せる」という実験が、本番運用を見据えた話になってきます。フォーム入力・データ収集・定型操作のような業務は、Webwright 系の設計が整えば社内ツールへの組み込みが現実的に。逆に、この段階では長時間・高度な判断が絡むタスクはまだ怪しく、エンジニアが監視しながら使うフェーズです。「エージェントで自動化してみたい」チームには、設計思想の参考に一読する価値があります。