Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

arXiv cs.AI / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 自律モバイルGUIエージェントがプラットフォームの検知を受ける中で、「有用性・堅牢性」だけでなく「非検知(anti-detection)に向けたHumanization」が重要だと主張しています。
  • 「Turing Test on Screen」を提案し、検出器とエージェントのMinMax最適化として相互作用を形式化し、行動の“人らしさ(behavioral divergence)”を最小化する観点を導入しています。
  • 新たに高解像度のモバイルタッチダイナミクス・データセットを収集し、通常のLMMベースのエージェントは不自然な運動学(kinematics)により検知されやすいことを分析で示しています。
  • エージェントのHumanization度合いと実タスク性能のトレードオフを測る「Agent Humanization Benchmark (AHB)」と検出指標を確立し、ヒューリスティックなノイズ付与からデータ駆動の行動マッチングまでの手法を提案しています。
  • その結果、理論・実験の両面で、高いimitability(人間らしさ)を高めても性能を大きく犠牲にせず達成できる可能性を示し、今後の“人間中心の敵対環境での共存”を見据えたパラダイム転換を提案しています。

Abstract

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.