クリックする場所を自分で学ぶ:GUIグラウンディングのオンポリシー自己蒸留

arXiv cs.AI / 2026/5/4

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、自然言語の指示を対象要素の視覚座標に対応付けるGUIグラウンディング向けに最適化した、新しいオンポリシー自己蒸留(OPSD)フレームワーク「GUI-SD」を提案しています。
  • GUI-SDは、教師の誘導を改善するために、ターゲットのバウンディングボックスとガウスのソフトマスクを用いて視覚的に豊かな特権(privileged)コンテキストを構築し、正確な座標の漏えいを避けつつも緻密な教師信号を与えます。
  • エントロピーに基づく蒸留では、数字の重要度と教師の確信度によりトークン重みを適応的に調整し、最も信頼できインパクトの大きい位置へ学習を集中させます。
  • 6つのGUIグラウンディングのベンチマークで、GUI-SDはGRPOベース手法および単純なOPSDよりも精度と学習効率の両面で一貫して優れています。
  • 著者はコードと学習データを公開しており、GUIグラウンディングエージェントにおけるOPSDの再現・発展を後押しします。