PSPA-Bench:スマートフォンGUIエージェントのためのパーソナライズド・ベンチマーク
arXiv cs.AI / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、スマートフォンGUIエージェントが、汎用的な解決策を提示するのではなく、個々のユーザのワークフローや嗜好にどれだけ適切に支援をパーソナライズできるかを評価するための新しいベンチマーク「PSPA-Bench」を提案する。
- PSPA-Benchは、10の日常利用シナリオと22のモバイルアプリを対象とした12,855件以上のパーソナライズされた指示を含み、きめ細かな測定のために構造を考慮したプロセス評価手法を用いる。
- 実験では、11の最先端GUIエージェントをベンチマークし、既存手法はパーソナライズ設定において性能が低いこと、また最良のエージェントでさえ成功は限定的であることを示す。
- 分析により、改善の方向性として3つが示唆される。すなわち、推論に重点を置いたモデルが汎用LLMより優れる傾向があること、知覚は重要な(ただし比較的単純な)能力であること、そしてリフレクションに加えて長期メモリを用いることで適応性を高められることである。




