ガイド:オープンエンド型GUIタスクにおけるユーザー理解と支援のためのベンチマーク
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クリックやキーストロークの自動化だけではなく、オープンエンド型GUIタスクにおいてAIモデルがユーザーの行動と意図をどれだけ理解できるかを測定するためのベンチマーク「GUIDE(GUI User Intent Detection Evaluation)」を提案する。
- GUIDEは、10種類のソフトウェアに対して、思考発話(think-aloud)による120件の初心者デモを用い、67.5時間分のスクリーン録画を収集し、3つのタスク(行動状態の検出、意図の予測、ヘルプ予測)でモデルを評価する。
- 実験の結果、現行の最先端マルチモーダルモデルは行動状態とヘルプ予測において性能が低く、精度はそれぞれ約44.6%および55.0%と報告されており、意図を踏まえた支援には大きなギャップがあることが示される。
- ユーザーの文脈を追加すると結果が大幅に改善され、ヘルプ予測の性能が最大50.2ポイント向上することが確認される。これは、有効なGUI協調のためには構造化されたユーザー理解が重要であることを示唆している。
- データセットはguide-bench.github.ioで公開されており、意図を踏まえたGUIエージェント能力に関するさらなる研究や比較が可能である。



