GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation
arXiv cs.AI / 3/30/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 大規模な視覚言語モデルを用いたGUIエージェントは学習時に特定アプリの操作データが不足し、計画(ワークフロー)とUI配置(グラウンディング)に関するドメインバイアスが生じて実タスク性能が制限される。
- 提案手法GUIDE(GUI Unbiasing via Instructional-Video Driven Expertise)は学習不要・プラグアンドプレイで、Webのチュートリアル動画からドメイン知識を自動獲得してバイアスを解消する。
- Subtitle駆動のVideo-RAGで動画を段階的に(ドメイン分類→トピック抽出→関連度マッチング)検索し、タスクに必要な動画セマンティクスを引き出す。
- さらに逆ダイナミクスに基づく完全自動アノテーションで連続キーフレームにUI要素検出を組み込み、VLMから計画とグラウンディングの知識を推定して、エージェントの対応モジュールに注入する。
- OSWorldでの実験では、モデルのパラメータやアーキテクチャ変更なしで一貫して5%以上の改善と実行ステップ削減が確認され、多エージェント/単一モデルの両方に汎用的に適用できることが示される。
Related Articles

Day 6: I Stopped Writing Articles and Started Hunting Bounties
Dev.to

Early Detection of Breast Cancer using SVM Classifier Technique
Dev.to

I Started Writing for Others. It Changed How I Learn.
Dev.to

10 лучших курсов по prompt engineering бесплатно: секреты успеха пошагово!
Dev.to

Prompt Engineering at Workplace: How I Used Amazon Q Developer to Boost Team Productivity by 30%
Dev.to