ガイド：オープンエンド型GUIタスクにおけるユーザー理解と支援のためのベンチマーク

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、クリックやキーストロークの自動化だけではなく、オープンエンド型GUIタスクにおいてAIモデルがユーザーの行動と意図をどれだけ理解できるかを測定するためのベンチマーク「GUIDE（GUI User Intent Detection Evaluation）」を提案する。
GUIDEは、10種類のソフトウェアに対して、思考発話（think-aloud）による120件の初心者デモを用い、67.5時間分のスクリーン録画を収集し、3つのタスク（行動状態の検出、意図の予測、ヘルプ予測）でモデルを評価する。
実験の結果、現行の最先端マルチモーダルモデルは行動状態とヘルプ予測において性能が低く、精度はそれぞれ約44.6%および55.0%と報告されており、意図を踏まえた支援には大きなギャップがあることが示される。
ユーザーの文脈を追加すると結果が大幅に改善され、ヘルプ予測の性能が最大50.2ポイント向上することが確認される。これは、有効なGUI協調のためには構造化されたユーザー理解が重要であることを示唆している。
データセットはguide-bench.github.ioで公開されており、意図を踏まえたGUIエージェント能力に関するさらなる研究や比較が可能である。

Abstract

グラフィカルユーザインタフェース（GUI）エージェントは、ユーザが複雑なソフトウェア（例：PowerPoint、Photoshop）とやり取りするのを支援できる可能性があります。先行研究は主として、クリックやキーストロークによるユーザ操作の自動化に焦点を当ててきましたが、このパラダイムは、人間の意図を見落としています。ユーザは、主体性を維持しながら、自分のアイデアを探索し、反復し、洗練させる能力を重視します。自動化を超えて協働へと進むには、GUIエージェントがユーザが何をしているのか、そしてなぜそうしているのかを理解する必要があります。本研究では、ユーザの行動を認識し、意図を推定し、オープンエンドなGUIタスクにおいて支援を提供する能力についてAIモデルを評価するベンチマークであるGUIDE（GUI User Intent Detection Evaluation）を導入します。GUIDEは、10種類のソフトウェアにまたがる120人の初心者ユーザによるデモンストレーション（think-aloudのナレーション付き）の画面録画67.5時間で構成されています。GUIDEは3つのタスク、すなわち（i）行動状態検出、（ii）意図予測、（iii）ヘルプ予測を定義し、モデルが行動状態を認識し、目標について推論し、いつどのように支援すべきかを判断できるかを検証します。最先端のマルチモーダルモデル8種を用いた評価では、すべてのモデルが困難を抱え、行動状態予測およびヘルプ予測の精度はそれぞれ44.6%と55.0%にとどまりました。しかし、ユーザのコンテキストを与えることで性能は大幅に改善し、ヘルプ予測が最大50.2pp向上しました。これは、効果的な支援における、構造化されたユーザ理解の重要な役割を示しています。データセットはhttps://guide-bench.github.ioで利用可能です。

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

AIエージェントにかかる10億ドル規模の税金

Dev.to

ガイド：オープンエンド型GUIタスクにおけるユーザー理解と支援のためのベンチマーク

要点

Abstract

関連記事

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

ソフトウェア開発における「楽しい」部分を見逃していた

AIエージェントにかかる10億ドル規模の税金

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer