Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
arXiv cs.AI / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 自律モバイルGUIエージェントがプラットフォームの検知を受ける中で、「有用性・堅牢性」だけでなく「非検知(anti-detection)に向けたHumanization」が重要だと主張しています。
- 「Turing Test on Screen」を提案し、検出器とエージェントのMinMax最適化として相互作用を形式化し、行動の“人らしさ(behavioral divergence)”を最小化する観点を導入しています。
- 新たに高解像度のモバイルタッチダイナミクス・データセットを収集し、通常のLMMベースのエージェントは不自然な運動学(kinematics)により検知されやすいことを分析で示しています。
- エージェントのHumanization度合いと実タスク性能のトレードオフを測る「Agent Humanization Benchmark (AHB)」と検出指標を確立し、ヒューリスティックなノイズ付与からデータ駆動の行動マッチングまでの手法を提案しています。
- その結果、理論・実験の両面で、高いimitability(人間らしさ)を高めても性能を大きく犠牲にせず達成できる可能性を示し、今後の“人間中心の敵対環境での共存”を見据えたパラダイム転換を提案しています。
Related Articles

Black Hat Asia
AI Business
Microsoft launches MAI-Image-2-Efficient, a cheaper and faster AI image model
VentureBeat

The AI School Bus Camera Company Blanketing America in Tickets
Dev.to
GPT-5.3 and GPT-5.4 on OpenClaw: Setup and Configuration...
Dev.to
GLM-5 on OpenClaw: Setup Guide, Benchmarks, and When to...
Dev.to