WebXSkill:自律型Webエージェントのためのスキル学習

arXiv cs.AI / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

要点

  • WebXSkillは、自律型LLM Webエージェントにおける「グラウンディングのギャップ」を、Webワークフロースキルを実行可能でパラメータ化されたアクションプログラムへ変換し、それに理解と回復のためのステップレベルの自然言語ガイダンスを組み合わせることで解決します。
  • この枠組みは、合成エージェント軌跡から再利用可能なアクションの部分列を抽出し、その結果得られたスキルをURLベースのグラフとして整理して文脈に応じた検索を可能にし、さらにそれらを完全自動の「グラウンディングモード」と、エージェント支援の「ガイド付きモード」の両方で展開します。
  • WebArenaおよびWebVoyagerでの実験により、タスク成功率が改善されており、ベースライン手法に対して最大で+9.8ポイントおよび+12.9ポイントの向上が見られます。
  • 付随するコードは公開されており、長時間(ロングホライゾン)のブラウザタスクに対する実行可能スキルのアプローチを他者が構築・評価できるようになります。

Abstract

大規模言語モデル(LLM)により駆動される自律型ウェブエージェントは、複雑なブラウザタスクの完了に有望であることが示されてきましたが、それでもなお長いホライゾンのワークフローに苦戦しています。主要なボトルネックの一つは、既存のスキル定式化におけるグラウンディング・ギャップです。すなわち、テキストによるワークフロースキルは自然言語のガイダンスを提供できますが、直接実行することはできません。一方、コードベースのスキルは実行可能ですが、エージェントからは不透明であり、エラー回復や適応のためのステップレベルの理解が得られません。そこで本研究では、このギャップを埋めるフレームワークであるWebXSkillを提案します。WebXSkillは、実行可能なスキルによって橋渡しを行い、各スキルをパラメータ化されたアクションプログラムと、ステップレベルの自然言語ガイダンスの組として定義することで、直接実行と、エージェント主導の適応の両方を可能にします。WebXSkillは3つの段階で動作します。スキル抽出では、容易に利用可能な合成エージェント軌跡から再利用可能なアクション部分列を採掘し、それらをパラメータ化されたスキルへと抽象化します。スキル組織化では、URLベースのグラフにスキルをインデックスし、文脈に応じた検索を可能にします。そしてスキル展開では、2つの補完的なモードを公開します。完全自動の多段階実行を行うグラウンディング(grounded)モードと、スキルがステップごとの指示として機能し、エージェントが自身のネイティブな計画に従ってそれを実行するガイド(guided)モードです。WebArenaおよびWebVoyagerにおいて、WebXSkillはそれぞれベースラインに対してタスク成功率を最大9.8および12.9ポイント向上させ、ウェブエージェントに対する実行可能スキルの有効性を示します。コードは https://github.com/aiming-lab/WebXSkill で公開されています。