画面上のチューリングテスト:モバイルGUIエージェントのヒューマナイゼーション(人間らしさ)に向けたベンチマーク

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 自律モバイルGUIエージェントがプラットフォームの検知に直面する中で、「有用性・堅牢性」だけでなく「非検知(anti-detection)に向けたHumanization(ヒューマナイゼーション)」が重要だと主張しています。
  • 「画面上のチューリングテスト(Turing Test on Screen)」を提案し、検出器とエージェントのMinMax最適化として相互作用を形式化し、行動の“人らしさ(behavioral divergence)”を最小化する観点を導入しています。
  • 新たに高解像度のモバイルタッチダイナミクス・データセットを収集し、通常のLMMベースのエージェントは不自然な運動学(kinematics)により検知されやすいことを分析で示しています。
  • エージェントのHumanization度合いと実タスク性能のトレードオフを測る「Agent Humanization Benchmark(AHB)」と検出指標を確立し、ヒューリスティックなノイズ付与からデータ駆動の行動マッチングまでの手法を提案しています。
  • その結果、理論・実験の両面で、高いimitability(人間らしさ)を高めても性能を大きく犠牲にせず達成できる可能性を示し、今後の“人間中心の敵対環境での共存”を見据えたパラダイム転換を提案しています。