AI Navigate

AndroTMem: 長期的な GUI エージェントにおける相互作用軌跡からアンカーメモリへ

arXiv cs.CV / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • AndroTMemは、長期的な Android GUI エージェントのメモリボトルネックに対処するための診断的Anchored Memoryフレームワークを導入します。
  • AndroTMem-Benchベンチマークには、強いステップ間因果依存を課し、メモリ依存の重要な中間状態をストレスさせるために、1,069タスクと34,473のインタラクションステップが含まれています。
  • オープンソースおよびクローズドソースのGUIエージェントにおいて、長いシーケンスでのパフォーマンス低下は、知覚エラーや局所的なアクションエラーよりも、タスク内のメモリ障害の失敗によって主に生じています。
  • Anchored State Memory(ASM)は、連続を因果的にリンクされた中間状態アンカーのコンパクトな集合として表現し、標的型のリトリーバルと帰属認識を伴う意思決定を可能にします。
  • 12のGUIエージェントを横断して、ASMはTCR(タスク完了率)を5%から30.16%に、AMSを4.93%から24.66%に改善し、全シーケンスリプレイおよび要約ベースラインを上回りました。プロジェクトのコードとベンチマークは https://github.com/CVC2233/AndroTMem で公開されています。

要約: 長期の GUI エージェントは現実世界への展開への重要な一歩ですが、現行のパラダイムの下での効果的な相互作用メモリは十分には検討されていません。完全な相互作用シーケンスをリプレイすることは冗長でノイズを増幅させ、要約はしばしば依存関係にとって重要な情報と追跡性を失わせます。私たちは長期の Android GUI エージェントにおけるアンカー付きメモリの診断フレームワーク、AndroTMem を提案します。その中核ベンチマーク、AndroTMem-Bench は 1,069 件のタスクと 34,473 の相互作用ステップを含み(平均 32.1、最大 65)、私たちは TCR(Task Complete Rate、タスク完了率)でエージェントを評価し、完了に重要な中間状態を前方へ引き継ぐことを要するタスクに焦点を当てます。AndroTMem-Bench は強いステップ間の因果依存関係を課するよう設計されており、希薄ながらも本当に重要な中間状態を下流の行動の決定要因とし、評価における相互作用メモリを中心に据えています。オープンソースおよびクローズドソースの GUI エージェント全体で、一定のパターンが観察されます。相互作用シーケンスが長くなるにつれて、性能低下は主にタスク内のメモリ障害によって引き起こされ、孤立した知覚エラーや局所的な行動ミスによるものではありません。この診断に基づき、Anchored State Memory(ASM)を提案します。ASM は相互作用シーケンスを因果的に連結された中間状態アンカーのコンパクトな集合として表現し、サブゴールを対象とした取得と帰属認識に基づく意思決定を可能にします。複数の設定と 12 件の評価済み GUI エージェントにわたって、ASM は全シーケンス再生および要約ベースのベースラインを一貫して上回り、TCR を 5%-30.16%、AMS を 4.93%-24.66% 改善し、アンカー付きで構造化されたメモリが長期的な GUI タスクにおける相互作用メモリのボトルネックを効果的に緩和することを示しています。コード、ベンチマーク、および関連リソースは以下で公開されています: [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).