HalluClear:GUIエージェントにおける幻覚(ハルシネーション)の診断・評価・低減
arXiv cs.AI / 2026/4/21
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文では、実運用でカスケード的な失敗を引き起こしやすいGUIエージェントに特化して、幻覚(ハルシネーション)を診断・評価・低減するためのスイート「HalluClear」を提案しています。
- HalluClearは、GUI向けの幻覚タクソノミー、VLM-as-a-judgeの信頼性を高めるための3段階評価ワークフロー(専門家が注釈したベンチマークとアンサンブルの信頼度推定を含む)、およびクローズドループの構造化推論に基づく介入方針から構成されます。
- 介入手法は、一般istとGUI専門型の両方のエージェントを対象に、軽量な継続的ポストトレーニングとコールドスタート初期化をサポートし、大規模再学習だけに依存しない設計です。
- 実験では、代表的なエージェントと公開ベンチマークにおいて、約9Kサンプルのポストトレーニングのみで幻覚が大きく低減され、グラウンディングと行動の忠実性が改善することが示されています。
- 本研究は、幻覚に焦点を当てたツール群を、より堅牢なGUIオートメーションのための計算効率の良いスケーリング補完策として位置づけています。
