MM-WebAgent：階層型マルチモーダルWebエージェントによるWebページ生成

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、AIGCツールを要素単体で生成するのではなく協調させることでページを作る「MM-WebAgent」という階層型のマルチモーダルWebエージェントを提案しています。
階層的な計画と反復的な自己反省を用いて、ページ全体のレイアウト、局所的なマルチモーダル表現、そしてそれらの統合を同時に最適化し、スタイルの一貫性と全体の整合性を高めます。
マルチモーダルWebページ生成のためのベンチマークと、体系的に評価するためのマルチレベル評価プロトコルも併せて提示されています。
実験では、MM-WebAgentがコード生成およびエージェント型ベースラインを上回り、特にマルチモーダル要素の生成とページへの統合で優れていると報告されています。

概要: 人工知能生成コンテンツ（AIGC）ツールの急速な進歩により、画像、動画、可視化を要求に応じて作成できるようになり、Webページデザインのための柔軟で、かつますます採用が進む現代的なUI/UXのパラダイムが実現しています。しかし、そのようなツールを自動のWebページ生成に直接統合すると、スタイルの一貫性が欠け、グローバルな整合性も低下しがちです。要素が互いに独立して生成されるためです。私たちは、階層的な計画と反復的な自己省察によって、AIGCベースの要素生成を調整する、マルチモーダルWebページ生成のための階層型エージェントフレームワークであるMM-WebAgentを提案します。MM-WebAgentは、グローバルなレイアウト、ローカルなマルチモーダルなコンテンツ、そしてそれらの統合を共同で最適化し、首尾一貫した、かつ視覚的に一貫性のあるWebページを生成します。さらに、マルチモーダルWebページ生成のためのベンチマークと、体系的な評価のための多層レベルの評価プロトコルを導入します。実験の結果、MM-WebAgentはコード生成およびエージェントベースのベースラインを上回る性能を示し、特にマルチモーダル要素生成と統合において優れています。コード＆データ: https://aka.ms/mm-webagent。