二度測れ、クリックは一度:強化学習によるGUIグラウンディングのための提案者と視覚批評家の共進化
arXiv cs.LG / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GUIグラウンディング(自然言語指示から正確なピクセル座標への対応付け)を扱い、従来モデルが意味理解はできても精密な位置特定に失敗しがちな課題を示しています。
- 幾何学的クラスタリングなどの静的な自己整合性戦略や、Pass@kを増やすだけの手法に代えて、レンダリングした提案を視覚的に批評させることで最適なターゲットを選ぶ学習可能な選択メカニズムを提案しています。
- 「提案してから批評する(Propose-then-Critic)」という共進化フレームワークにより、提案者と批評家の能力差に対処するよう両者を相互強化しながら学習させます。
- maturity-aware(成熟度を考慮した)適応的な共進化型強化学習により、学習中の提案者と批評家の目的のバランスを動的に調整し、空間探索と識別能力の双方を高めます。
- 6つのベンチマークでの実験により、グラウンディング精度と批評家の信頼性の両方が大きく向上することを報告しています。



