WebVR: 人間の嗜好に合わせた視覚ルーブリックを用いた動画からのウェブページ再現におけるマルチモーダルLLMのベンチマーク

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

WebVR は、デモンストレーション動画からウェブページを再現するマルチモーダルLLMの能力を評価するための専用ベンチマークを導入します。これには、インタラクションの流れ、タイミング、モーションの連続性を捉えることが含まれます。
データセットには、既存ページと重複がないように制御された合成パイプラインによって作成された175のウェブページが含まれており、多様で現実的なデモンストレーションを保証します。
詳細な人間適合の視覚ルーブリックを含み、評価の包括性を高めています。ルーブリックと人間の嗜好との自動一致率は96%です。
19モデルを横断する実験により、細かなスタイルおよびモーション品質の再現にはギャップがあることが示され、改善の余地が示唆されます。
著者らは、動画からウェブページ生成の将来の研究を促進するため、データセット、評価ツールキット、およびベースラインの結果を公開します。

要約: 既存のウェブ生成ベンチマークは、入力としてテキストプロンプトや静的なスクリーンショットに依存しています。しかし、動画は相互作用の流れ、遷移のタイミング、動きの連続性といった、忠実なウェブページ再現には不可欠な、より豊かな信号を自然に伝えます。この潜在性にもかかわらず、動画条件付きのウェブページ生成は依然としてほとんど研究されておらず、このタスクのための専用ベンチマークは存在しません。このギャップを埋めるべく、デモンストレーション動画からウェブページを忠実に再現できるかを評価するベンチマーク WebVR を導入します。WebVR には多様なカテゴリにわたる175のウェブページが含まれており、ウェブクローリングではなく、制御された合成パイプラインによって構築されているため、多様で現実的なデモンストレーションを確保し、既存のオンラインページとの重複を避けています。また、生成されたウェブページを複数の次元にわたって評価する、細粒度で人間の判断と整合する視覚的ルーブリックを設計しました。19モデルを対象とした実験では、細かなスタイルやモーション品質を再現する際に顕著なギャップがあることが明らかになりました。一方、ルーブリックベースの自動評価は人間の嗜好と96%の一致を達成します。データセット、評価ツールキット、ベースライン結果を公開し、動画からウェブページ生成に関する今後の研究を支援します。