GUIエージェントのハイブリッド自己進化型構造化メモリ

arXiv cs.AI / 2026/3/12

📰 ニュースModels & Research

要点

  • HyMEM は、離散的な高レベルのシンボリックノードと連続的な軌跡埋め込みを結びつけるグラフベースのメモリで、GUIエージェントにおける構造化された複数ホップ検索を可能にします。
  • 人間の記憶の組織化に触発され、ノード更新操作を通じた自己進化と推論時のオンザフライ作業メモリ刷新をサポートします。
  • 広範な実験により HyMEM はオープンソースの GUI エージェントの性能を一貫して改善し、7B/8B バックボーンが強力なクローズドソースモデルに匹敵または上回ることを可能にします。特に Qwen2.5-VL-7B を +22.5% 向上させ、Gemini2.5-Pro-Vision および GPT-4o を上回ります。
  • この研究は、長期的なワークフローと多様なインターフェースを持つ GUI 自動化タスクに対して、メモリを強化したアプローチを提供することで広範な影響を示唆します。
要旨: 視覚と言語モデル(VLMs)の顕著な進歩は、GUIエージェントが人間のような方法でコンピュータと相互作用できるようにしました。しかし、現実世界のコンピュータ使用タスクは、長期的なワークフロー、多様なインターフェース、頻繁な中間エラーのため依然として難しいです。従来の研究では、エージェントに大規模な軌跡コレクションから構築された外部メモリを装備させますが、離散的な要約や連続埋め込みに基づくフラットな検索に依存しており、人間の記憶の構造化された組織と自己進化的な特徴には及びません。脳に触発され、Hybrid Self-evolving Structured Memory(HyMEM)を提案します。HyMEM は、離散的な高レベルのシンボリックノードと連続的な軌跡埋め込みを結びつけるグラフベースのメモリです。HyMEM は複数ホップ検索をサポートするグラフ構造を維持し、ノード更新操作による自己進化と推論時のオンザフライ作業メモリ刷新を可能にします。広範な実験により、HyMEM はオープンソースの GUI エージェントの性能を一貫して改善し、7B/8B のバックボーンが強力なクローズドソースモデルに匹敵または上回ることを可能にしました。特に、Qwen2.5-VL-7B の性能を +22.5% 向上させ、Gemini2.5-Pro-Vision および GPT-4o を上回ることを示しています。