OpeFlo:GUIグラウンディングを伴うシミュレートされた人間のWeb操作による自動化UX評価

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • OpeFlo(OpenFlo)は、ユーザ研究や専門家レビューに頼らず、シミュレートしたユーザー行動によってウェブのユーザビリティ評価を自動化するUX評価エージェントとして提案されています。
  • DOM解析中心の従来手法と異なり、GUIグラウンディングにより実ページをエンドツーエンドで操作・観測しつつ、ユーザージャーニーの一貫したトレースを維持できる点が主な特徴です。
  • 評価プロトコルとしてSystem Usability Scale(SUS)、ステップごとのSingle Ease Questions(SEQ)、同時並行のThink Aloudを組み合わせ、標準化された形で測定を行います。
  • 最終的に包括的なUXレポートを生成する構成で、継続的かつスケーラブルなデータ駆動の使いやすさテストを、小規模チームやアジャイル開発でも回しやすくすることを狙っています。
  • コードはGitHubで公開されており、Avenir-Webを基盤としたマルチモーダル・グラウンディングのアーキテクチャが示されています。

Abstract

Webのユーザビリティを評価するには通常、時間のかかるユーザー調査や専門家によるレビューが必要であり、特に小規模チームやアジャイルなワークフローでは、プロダクト開発中の反復速度がしばしば制限されます。私たちは、OpenFloというユーザーエクスペリエンス評価エージェントを提示します。OpenFloはウェブサイト上でのユーザー行動をシミュレートし、標準化されたユーザビリティを生成します。DOM(Document Object Model)解析に依存する従来のツールとは異なり、OpenFloは行動と観察を基盤に据えることで(grounding)、ユーザージャーニーを一貫した形で追跡可能にしつつ、実際のウェブページに対してエンドツーエンドで相互作用できるようにします。Avenir-Webを基に、本システムは、この堅牢な対話を、シミュレートされたユーザー行動プロファイルおよび、System Usability Scale(SUS)、段階的なSingle Ease Questions(SEQ)、そして同時並行のThink Aloudを統合する構造化された評価プロトコルと組み合わせます。続いて、包括的なユーザーエクスペリエンス(UX)レポートが生成されます。私たちはOpenFloのアーキテクチャを議論し、そのマルチモーダルな基盤化(multimodal grounding)が、ウェブベースの相互作用およびUX評価シナリオにおける堅牢性をどのように高めるかを示します。これにより、すべての開発者が、利用しやすいWebインタフェースを構築できるようにする、継続的でスケーラブルかつデータ駆動型のユーザビリティテストの新しい時代が切り開かれます。コードは以下で公開されています: https://github.com/Onflow-AI/OpenFlo