画面上のチューリングテスト:モバイルGUIエージェントのヒューマナイゼーション(人間らしさ)に向けたベンチマーク
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 自律モバイルGUIエージェントがプラットフォームの検知に直面する中で、「有用性・堅牢性」だけでなく「非検知(anti-detection)に向けたHumanization(ヒューマナイゼーション)」が重要だと主張しています。
- 「画面上のチューリングテスト(Turing Test on Screen)」を提案し、検出器とエージェントのMinMax最適化として相互作用を形式化し、行動の“人らしさ(behavioral divergence)”を最小化する観点を導入しています。
- 新たに高解像度のモバイルタッチダイナミクス・データセットを収集し、通常のLMMベースのエージェントは不自然な運動学(kinematics)により検知されやすいことを分析で示しています。
- エージェントのHumanization度合いと実タスク性能のトレードオフを測る「Agent Humanization Benchmark(AHB)」と検出指標を確立し、ヒューリスティックなノイズ付与からデータ駆動の行動マッチングまでの手法を提案しています。
- その結果、理論・実験の両面で、高いimitability(人間らしさ)を高めても性能を大きく犠牲にせず達成できる可能性を示し、今後の“人間中心の敵対環境での共存”を見据えたパラダイム転換を提案しています。




