UI-Copilot:ツール統合型方策最適化による長期ホライズンGUI自動化の前進

arXiv cs.LG / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、記憶の劣化、進捗の取り違え、数学の幻覚といった長期的失敗に焦点を当てた、多モーダル/LLMベースのGUIエージェントのためのフレームワークであるUI-Copilotを提案する。
  • 主となるGUIエージェントが実行を担い、軽量なコパイロットが必要に応じて記憶の検索と数値計算を提供する、協調設計を用いる。
  • 持続的な観測と一時的な実行コンテキストを分離するメモリのデカップリング(分離)を提案し、長いタスク連鎖にわたる連続性を向上させる。
  • Retriever(検索)またはCalculator(計算機)としてコパイロットを選択的に呼び出す方策エージェントを訓練する。これには、ツール選択(単一ターン)と実行(方策に基づく複数ターン)を最適化するTool-Integrated Policy Optimization(TIPO)を用いる。
  • 結果として、MemGUI-Benchにおいて最先端の性能を報告し、基礎となるQwenモデルに対してAndroidWorldで絶対値17.1%の改善を示しており、実世界のGUIタスクへの強い汎化性能が示唆される。

概要: MLLMベースのGUIエージェントは、複雑なユーザーインタフェースの相互作用タスクにおいて強力な能力を示してきました。しかし、長期のホライゾンシナリオは依然として困難です。これらのエージェントは、本来の能力を超えたタスクを背負うことになり、記憶の劣化、進捗の混乱、そして数学の幻覚に悩まされるためです。これらの課題に対処するために、我々はUI-Copilotを提案します。UI-Copilotは協調型のフレームワークであり、GUIエージェントはタスク実行に集中し、軽量なコパイロットが、記憶の想起および数値計算に対して必要に応じた支援を提供します。我々は、永続的な観測と一過性の実行コンテキストを分離するためのメモリ分離を導入し、タスクの要求に応じてRetrieverまたはCalculatorとしてコパイロットを選択的に呼び出すようにポリシーエージェントを訓練します。効果的なツール呼び出し学習を可能にするために、我々はTool-Integrated Policy Optimization(TIPO)を提案します。ここでは、単一ターンの予測によってツール選択を別個に最適化し、方策に基づくマルチターン・ロールアウトによってタスク実行を最適化します。実験結果は、UI-Copilot-7Bが困難なMemGUI-Benchにおいて最先端の性能を達成し、GUI-Owl-7BやUI-TARS-1.5-7Bといった強力な7BスケールのGUIエージェントを上回ることを示しています。さらに、UI-Copilot-7BはベースとなるQwenモデルに比べてAndroidWorldで絶対値17.1%の改善をもたらしており、UI-Copilotが実世界のGUIタスクに対して強い汎化能力を持つことが強調されています。