このチュートリアルでは、MolmoWebを取り上げます。MolmoWebは、Ai2のオープンなマルチモーダルWebエージェントであり、HTMLやDOMの解析に頼らずに、スクリーンショットからウェブサイトを理解し、その場で操作します。Colab上で環境一式をセットアップし、効率的な4ビット量子化でMolmoWeb-4Bモデルを読み込み、モデルが[…]について推論できるようにする、まさにそのプロンプト手順のワークフローを構築します。
この記事 マルチモーダル推論とアクション予測を用いてMolmoWeb-4Bでビジョン誘導型Web AIエージェントを構築する方法 は、最初にMarkTechPost に掲載されました。