二度測れ、クリックは一度:強化学習によるGUIグラウンディングのための提案者と視覚批評家の共進化

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GUIグラウンディング(自然言語指示から正確なピクセル座標への対応付け)を扱い、従来モデルが意味理解はできても精密な位置特定に失敗しがちな課題を示しています。
  • 幾何学的クラスタリングなどの静的な自己整合性戦略や、Pass@kを増やすだけの手法に代えて、レンダリングした提案を視覚的に批評させることで最適なターゲットを選ぶ学習可能な選択メカニズムを提案しています。
  • 「提案してから批評する(Propose-then-Critic)」という共進化フレームワークにより、提案者と批評家の能力差に対処するよう両者を相互強化しながら学習させます。
  • maturity-aware(成熟度を考慮した)適応的な共進化型強化学習により、学習中の提案者と批評家の目的のバランスを動的に調整し、空間探索と識別能力の双方を高めます。
  • 6つのベンチマークでの実験により、グラウンディング精度と批評家の信頼性の両方が大きく向上することを報告しています。

Abstract

グラフィカル・ユーザー・インターフェイス(GUI)のグラウンディングでは、自然言語の指示を正確なピクセル座標へと対応づける必要があります。しかし、視覚的に同質な要素や密なレイアウトのために、モデルは通常、意味上の意図は理解できる一方で、正確なローカライズの達成には苦戦します。サンプリング試行の拡大(Pass@k)によって潜在的な向上が見られる一方で、幾何学的クラスタリングに基づく静的な自己整合戦略では、モデルの予測が空間的に分散しやすいため、改善は限定的にとどまることが多いです。本論文では、静的な整合戦略を、スクリーンショット上にレンダリングされた自らの提案を自己批評することで最適なターゲットを選択する、学習可能な選択メカニズムに置き換えることを提案します。モデルのグラウンディング能力と批評能力の間には大きな隔たりがあるため、提案してから批評する(Propose-then-Critic)枠組みを相互に進化させる(co-evolving)形で導入します。これらを共同で最適化するために、成熟度を考慮した適応的な共進化強化学習パラダイムを提案します。このアプローチでは、提案者と批評者の学習目標のバランスを動的に調整します。提案者の出力の多様性が批評者の頑健性を高める一方で、批評者の成熟に伴う弁別能力が逆に提案者の大きな可能性を解放し、広範な空間探索を可能にします。これにより、両者の能力が相互に強化され共進化することで、さまざまで複雑なインターフェース・レイアウトに適応できる汎用性が保証されます。6つのベンチマークにわたる大規模実験の結果、本手法はグラウンディング精度と批評者の信頼性の両方を大幅に向上させることが示されました。