広告

ガイド:オープンエンド型GUIタスクにおけるユーザー理解と支援のためのベンチマーク

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クリックやキーストロークの自動化だけではなく、オープンエンド型GUIタスクにおいてAIモデルがユーザーの行動と意図をどれだけ理解できるかを測定するためのベンチマーク「GUIDE(GUI User Intent Detection Evaluation)」を提案する。
  • GUIDEは、10種類のソフトウェアに対して、思考発話(think-aloud)による120件の初心者デモを用い、67.5時間分のスクリーン録画を収集し、3つのタスク(行動状態の検出、意図の予測、ヘルプ予測)でモデルを評価する。
  • 実験の結果、現行の最先端マルチモーダルモデルは行動状態とヘルプ予測において性能が低く、精度はそれぞれ約44.6%および55.0%と報告されており、意図を踏まえた支援には大きなギャップがあることが示される。
  • ユーザーの文脈を追加すると結果が大幅に改善され、ヘルプ予測の性能が最大50.2ポイント向上することが確認される。これは、有効なGUI協調のためには構造化されたユーザー理解が重要であることを示唆している。
  • データセットはguide-bench.github.ioで公開されており、意図を踏まえたGUIエージェント能力に関するさらなる研究や比較が可能である。

Abstract

グラフィカルユーザインタフェース(GUI)エージェントは、ユーザが複雑なソフトウェア(例:PowerPoint、Photoshop)とやり取りするのを支援できる可能性があります。先行研究は主として、クリックやキーストロークによるユーザ操作の自動化に焦点を当ててきましたが、このパラダイムは、人間の意図を見落としています。ユーザは、主体性を維持しながら、自分のアイデアを探索し、反復し、洗練させる能力を重視します。自動化を超えて協働へと進むには、GUIエージェントがユーザが何をしているのか、そしてなぜそうしているのかを理解する必要があります。本研究では、ユーザの行動を認識し、意図を推定し、オープンエンドなGUIタスクにおいて支援を提供する能力についてAIモデルを評価するベンチマークであるGUIDE(GUI User Intent Detection Evaluation)を導入します。GUIDEは、10種類のソフトウェアにまたがる120人の初心者ユーザによるデモンストレーション(think-aloudのナレーション付き)の画面録画67.5時間で構成されています。GUIDEは3つのタスク、すなわち(i)行動状態検出、(ii)意図予測、(iii)ヘルプ予測を定義し、モデルが行動状態を認識し、目標について推論し、いつどのように支援すべきかを判断できるかを検証します。最先端のマルチモーダルモデル8種を用いた評価では、すべてのモデルが困難を抱え、行動状態予測およびヘルプ予測の精度はそれぞれ44.6%と55.0%にとどまりました。しかし、ユーザのコンテキストを与えることで性能は大幅に改善し、ヘルプ予測が最大50.2pp向上しました。これは、効果的な支援における、構造化されたユーザ理解の重要な役割を示しています。データセットはhttps://guide-bench.github.ioで利用可能です。

広告