概要: マルチモーダル大規模言語モデル(LLM)の最近の進歩は、ウェブサイト上で複雑なタスクを自動化できるWebエージェントに革命をもたらしました。しかし、それらの正確性は、高品質なWebトラジェクトリ(操作手順)に関する学習データが乏しいことによって制限されています。既存の自動トラジェクトリ生成手法は、ホームページに基づくタスク提案やランダムウォーク探索に起因して、ウェブサイト全体のカバレッジが不完全になりがちです。そのような手法では、多くの場合、幻覚的または曖昧なタスク合成が生じ、その結果として不完全で信頼性の低いトラジェクトリ生成につながります。ここでは、これらの制約を3つの主要な革新によって解決する包括的なWebトラジェクトリ生成器であるAutoSurferを提案します。まず、AutoSurferは、発見したページとアクショントレースをキューとして保持する体系的な幅優先探索戦略を採用します。さらに、冗長な探索を避けるためにページ間で知識を伝播させ、多層のグラフィカル・ユーザー・インタフェース要素を再帰的に拡張します。これは、人が新しいウェブサイトを学ぶ方法に非常に近いものです。次に、AutoSurferは探索トラジェクトリを用いてタスク合成を導き、単独のアクションやページ内容だけでなく、実際のナビゲーション経路にタスクを根拠づけることで幻覚を減らします。第三に、AutoSurferは同じ探索トラジェクトリをヒントとして使用し、Webエージェントをより正確で信頼性の高いトラジェクトリの洗練へと誘導します。これらの革新により、AutoSurferはウェブサイトのアクション空間を包括的にカバーし、ウェブサイト固有のLLMの学習に適したデータを生成できるようになります。私たちはWebArenaベンチマークで、Qwen2.5-VL-7B-Instructを微調整することでAutoSurferを評価し、Explorer、OS-Genesis、SynthAgentの最先端手法を上回ることを示します。これにより、最良の従来手法である19.59%に対し、全体で最大24.23%のタスク完了精度を達成します。さらに、タスク多様性の分析により、AutoSurferは合成タスクのより多様な分布を生み出すことが示されます。
AutoSurfer――包括的なサーフィン、学習、モデリングによるウェブエージェントの学習
arXiv cs.AI / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- AutoSurferは、マルチモーダルLLMを用いたウェブエージェントのための学習データの品質とカバレッジを高めることを目的とした新しいウェブ・トラジェクトリ生成手法として提案されました。
- 人手の学習に近い形で、発見したページとアクショントレースをキューで管理する体系的な幅優先探索(知識の伝播や多段UI要素の再帰的展開を含む)によって、Webサイトの行動空間をより適切にカバーします。
- 探索トラジェクトリをタスク合成の根拠として用いることで、孤立したアクションやページ内容だけに基づく場合よりも幻覚や曖昧さを減らし、さらに同じトラジェクトリを手がかりとして軌道の洗練精度も高めます。
- WebArenaベンチマークでの評価では、AutoSurfer生成データでQwen2.5-VL-7B-Instructを微調整した結果、先行手法より性能が向上し、全体のタスク完了精度で最大24.23%を達成(最良の従来手法19.59%)しました。
- 合成タスクの多様性分析では、AutoSurferがより多様なタスク分布を生み出すことも示され、Webサイト特化のLLMエージェント学習に有用であることが裏付けられています。




