表示証拠に基づく忠実なモバイルGUIエージェント：ガイド付き優位推定器

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルに基づくGUIエージェントが、画面に表示された証拠やユーザー指示に根差した行動ではなく、記憶した近道に頼って不誠実に振る舞うことがあると指摘しています。
その対策として、evidence-groundedness（証拠に基づく一貫性）と内部整合性を重視する「Faithful-Agent」という忠実性優先の枠組みを提案します。
Faithful-Agentは2段階の学習パイプラインを採用し、(i) 証拠が摂動された状況での“見合わせ”行動を促す忠実性志向のSFT、(ii) さらに忠実性を高めるRFTを行います。
RFTではGRPOに基づくガイド付き優位推定器（GuAE）を導入し、GUI報酬が疎な場合に低分散のロールアウト群で優位が崩壊する問題を防ぐことを狙います。
さらに思考—行動整合性の報酬を加えることで、ベースラインに対してStage-IIがTrap SRを13.88%から80.21%へ大幅に引き上げつつ、一般的な指示追従性能も維持しています。

要旨: 画像と言語に基づくグラフィカル・ユーザインタフェース（GUI）エージェントは、高い対話能力を示してきました。しかし、それらはしばしば不忠実に振る舞い、表示された画面上の証拠やユーザーの指示に基づいて行動を取るのではなく、暗記した近道（ショートカット）に依存します。これに対処するために、私たちは Faithful-Agent を提案します。これは、忠実性（faithfulness）を最優先する枠組みであり、GUI 対話を組み替えて、証拠に基づくこと（evidence groundedness）と内部整合性を優先します。Faithful-Agent は 2 段階のパイプラインを採用します:（i）忠実性重視の SFT 段階で、証拠の摂動下における「差し控え（abstainment）」行動を学習させること。;（ii）GRPO に基づいて構築された、アンカーベースかつ分散適応型の優位度（advantage）減衰（tempering）機構である、ガイド付き優位度推定器（GuAE）を導入することで、さらに忠実性を増幅させる RFT 段階です。GuAE は、疎な GUI 報酬のもとで分散が低いロールアウト・グループにおける優位度の崩壊（advantage collapse）を防ぎ、さらに思考—行動の一貫性報酬を加えることで、Faithful-Agent（第 II 段階）はベースラインに対する Trap SR を 13.88\% から 80.21\% へと引き上げます。加えて、頑健な一般的な指示追従性能を維持します。