要旨: 大規模言語モデル(LLM)に基づくエージェントの最近の進歩により、コード生成において目覚ましい成果が示されています。しかし、現在のエージェント手法は主にテキスト出力ベースのフィードバック(例:コマンドライン出力)に依存しており、多ラウンドのデバッグでは有効である一方で、視覚情報を含むグラフィカル・ユーザー・インターフェース(GUI)では苦戦しています。これは主に2つの制約によるものです。1)GUIプログラムはイベント駆動ですが、既存の手法ではGUI要素のロジックを発火させるためのユーザー操作をシミュレートできない 2)GUIプログラムには視覚的属性があり、テキストベースの手法では、レンダリングされたインターフェースがユーザーのニーズを満たしているかどうかを評価しにくい。これらの課題に体系的に対処するために、まず、相互作用ロジックと視覚構造の両方をきめ細かく評価するための、984件の一般的に使われる実世界のデスクトップGUIアプリケーション課題からなる新しいベンチマーク「InteractGUI Bench」を導入します。さらに、GUIコードのデバッグのための、視覚フィードバックに基づくマルチエージェントシステム「VF-Coder」を提案します。VF-Coderは視覚情報を認識し、プログラムのインターフェースを直接操作することで、人間らしい方法で潜在的なロジック問題やレイアウト問題を特定できます。InteractGUI Benchにおいて、私たちのVF-Coder手法はGemini-3-Flashの成功率を21.68%から28.29%に引き上げ、視覚スコアを0.4284から0.5584に向上させます。これは、GUIデバッグにおける視覚フィードバックの有効性を示しています。
目でコーディング:視覚フィードバックが信頼性あるGUIコード生成とデバッグを可能にする
arXiv cs.AI / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、既存のLLMベースのコーディングエージェントがテキストのみのフィードバックに依存していること、さらにイベント駆動のユーザー操作を十分にモデル化できないことや、描画結果の視覚的な品質を評価しにくいことがGUIの多段階デバッグでの課題になると指摘しています。
- 984件の実世界のデスクトップGUIタスクで構成される新しいベンチマーク「InteractGUI Bench」を提案し、操作ロジックと視覚構造の両方を細粒度に評価できるようにします。
- 「VF-Coder」は、視覚ベースのフィードバックと画面上のインターフェースへの直接的な操作により、人間のように論理面とレイアウト面の問題を特定するマルチエージェント方式です。
- InteractGUI Benchでの実験では、VF-CoderによりGemini-3-Flashの成功率が21.68%から28.29%に向上し、視覚スコアも0.4284から0.5584に上がることが示され、GUIデバッグにおける視覚フィードバックの有効性が確認されます。




