ガイド:リアルタイムWebビデオ検索とプラグアンドプレイ型アノテーションによってGUIエージェントのドメインバイアスを解消する方法
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 大規模な視覚言語モデルを用いたGUIエージェントは学習時に特定アプリの操作データが不足し、計画(ワークフロー)とUI配置(グラウンディング)に関するドメインバイアスが生じて実タスク性能が制限される。
- 提案手法GUIDE(GUI Unbiasing via Instructional-Video Driven Expertise)は学習不要・プラグアンドプレイで、Webのチュートリアル動画からドメイン知識を自動獲得してバイアスを解消する。
- Subtitle駆動のVideo-RAGで動画を段階的に(ドメイン分類→トピック抽出→関連度マッチング)検索し、タスクに必要な動画セマンティクスを引き出す。
- さらに逆ダイナミクスに基づく完全自動アノテーションで連続キーフレームにUI要素検出を組み込み、VLMから計画とグラウンディングの知識を推定して、エージェントの対応モジュールに注入する。
- OSWorldでの実験では、モデルのパラメータやアーキテクチャ変更なしで一貫して5%以上の改善と実行ステップ削減が確認され、多エージェント/単一モデルの両方に汎用的に適用できることが示される。



