UI-Oceanus:合成環境ダイナミクスによるGUIエージェントのスケーリング

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 結果は、合成データ量の増加に伴ってナビゲーション性能が向上することを示しており、このアプローチはGUIオートメーションにおけるドメイン横断の適応性と、構成的な汎化を支えることが示されている。

概要: 汎用GUIエージェントのスケーリングは、費用のかかる人間のデモンストレーションによるデータのスケーラビリティ・ボトルネックと、合成教師による監督の「蒸留(distillation)の天井」によって妨げられています。これらの制約を超えるために、本研究ではUI-Oceanusという枠組みを提案します。この枠組みでは、高レベルの軌跡を模倣することから、真の環境フィードバックを通じて相互作用の物理を習得することへと学習の焦点を移します。自己教師ありの目的関数に関する体系的な検証により、「前向きダイナミクス(forward dynamics)」(インターフェース状態の将来を生成的に予測するもの)が、スケーラビリティの主要な駆動因であり、逆推論(inverse inference)よりも大幅に優位であることを突き止めました。UI-Oceanusはこの洞察を活用し、システムの実行によって直接検証される低コストの自律的探索を、高密度の生成的監督へと変換することで、堅牢な内部の世界モデルを構築します。モデル群に対する一連の実験評価により、提案手法が決定的に優れていることが示されます。すなわち、合成ダイナミクス上で継続的事前学習(Continual Pre-Training: CPT)を用いたモデルは、CPTを用いないベースラインを平均成功率で7%上回り、オフラインのベンチマークでその効果が確認できます。さらに、実環境でのオンラインナビゲーションでは、この改善は16.8%の向上へと拡大します。加えて、ナビゲーション性能が合成データ量に応じてスケールすることを観察しています。これらの結果は、前向き予測モデリングによりエージェントを基礎づけることが、堅牢なドメイン間適応性と合成的(compositional)な汎化を備えた、スケーラブルなGUI自動化にとってより優れた道筋であることを裏づけます。