AI2の完全オープンなWebエージェントMolmoWebは、スクリーンショットだけでWebをナビゲートする

THE DECODER / 2026/3/26

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • AI2は、テキストやDOMへの従来のアクセスではなく、視覚的入力(スクリーンショット)のみを用いてWebサイトをナビゲートする、完全オープンなWebエージェント「MolmoWeb」を公開した。
  • この記事では、MolmoWebのモデルが比較的小規模(4Bおよび8Bパラメータ)であるにもかかわらず、標準的なWebナビゲーションのベンチマークで強い結果を達成していると報告している。
  • MolmoWebは、複数のより大規模な独自システムに対する競争力のある代替として位置付けられており、Webエージェントにおける効率重視のアプローチが示唆される。
  • 「完全にオープン」にすることで、AI2は研究者や開発者がより広範に実験や統合を行えるようにすることを狙っている。
  • スクリーンショットのみのインターフェースは、テキスト/HTML依存の手法と比べて、Webページ構造の変化に対する頑健性を高めうるという設計上の選択を際立たせている。

AI2は、スクリーンショットのみを使ってWebサイトをナビゲートする、完全にオープンなWebエージェント「MolmoWeb」をリリースしました。わずか40億〜80億パラメータしか持たないにもかかわらず、モデルは標準ベンチマークにおいて、いくつかのより大規模な独自システムを上回っています。

この記事 AI2の完全オープンなWebエージェント「MolmoWeb」はスクリーンショットのみでWebをナビゲートする は、The Decoder に最初に掲載されました。