ガイド：リアルタイムWebビデオ検索とプラグアンドプレイ型アノテーションによってGUIエージェントのドメインバイアスを解消する方法

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

大規模な視覚言語モデルを用いたGUIエージェントは学習時に特定アプリの操作データが不足し、計画（ワークフロー）とUI配置（グラウンディング）に関するドメインバイアスが生じて実タスク性能が制限される。
提案手法GUIDE（GUI Unbiasing via Instructional-Video Driven Expertise）は学習不要・プラグアンドプレイで、Webのチュートリアル動画からドメイン知識を自動獲得してバイアスを解消する。
Subtitle駆動のVideo-RAGで動画を段階的に（ドメイン分類→トピック抽出→関連度マッチング）検索し、タスクに必要な動画セマンティクスを引き出す。
さらに逆ダイナミクスに基づく完全自動アノテーションで連続キーフレームにUI要素検出を組み込み、VLMから計画とグラウンディングの知識を推定して、エージェントの対応モジュールに注入する。
OSWorldでの実験では、モデルのパラメータやアーキテクチャ変更なしで一貫して5%以上の改善と実行ステップ削減が確認され、多エージェント/単一モデルの両方に汎用的に適用できることが示される。

Abstract

大規模な視覚言語モデルは、GUIエージェントに対して、インターフェース理解と相互作用のための強力な汎化能力を与えてきました。しかし、学習中にドメイン固有のソフトウェア操作データへの十分な露出がないため、これらのエージェントは大きなドメインバイアスを示します。すなわち、特定のアプリケーションにおける固有の操作ワークフロー（計画）やUI要素のレイアウト（グラウンディング）に対する馴染みがないため、現実世界でのタスク遂行能力が制限されます。本論文では、GUIDE（GUI Unbiasing via Instructional-Video Driven Expertise）を提案します。これは学習不要で、プラグアンドプレイ可能なフレームワークであり、検索強化された自動アノテーションのパイプラインを通じて、ウェブのチュートリアル動画から自律的にドメイン固有の専門性を獲得することで、GUIエージェントのドメインバイアスを解消します。GUIDEは2つの主要な革新を導入します。第一に、字幕に基づくVideo-RAGパイプラインにより、字幕解析を通じて動画の意味を解放し、段階的な3ステージの検索—ドメイン分類、トピック抽出、関連性マッチング—を実行して、タスクに関連するチュートリアル動画を特定します。第二に、逆ダイナミクスのパラダイムに基づく完全自動のアノテーションパイプラインを構築し、UI要素検出によって強化された連続するキーフレームをVLMへ投入することで、必要な計画およびグラウンディングの知識を推論します。そして、それらをエージェントの対応するモジュールへ注入することで、ドメインバイアスの両方の現れに対処します。OSWorldにおける大規模な実験により、GUIDEがマルチエージェントシステムと単一モデルエージェントの双方に対するプラグアンドプレイのコンポーネントとして一般性を持つことを示します。モデルパラメータやアーキテクチャを一切変更することなく、一貫して5%以上の改善をもたらし、実行ステップ数を削減します。これにより、GUIDEがGUIエージェントのドメインバイアスを埋めるための、アーキテクチャに依存しない拡張であることを検証します。