A11y-Compressor:視覚的コンテキスト再構成と冗長性削減によってGUIエージェントの観測効率を高めるためのフレームワーク
arXiv cs.AI / 2026/5/4
💬 オピニオンModels & Research
要点
- 本論文は、GUIエージェントが確実に状況を把握するための観測表現を、よりコンパクトで構造化された形に変換するフレームワーク「A11y-Compressor」を提案している。
- アクセシビリティツリー形式の弱点である冗長性と、要素間の空間的な関係などの構造情報の欠如に対し、変換パイプラインで対応している。
- 実装の「Compressed-a11y」は、モーダル検出、冗長性削減、セマンティックな構造化といった軽量な手順で有用なコンテキストを再構成する。
- OSWorldベンチマークでの実験では、入力トークンが元の22%まで削減される一方、平均タスク成功率が5.1ポイント向上した。
