模倣から識別へ:堅牢なWebナビゲーションのためのプログレッシブ・カリキュラム学習

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストベースのWebエージェントがうまく機能しにくいのは、現実世界のHTMLがノイズや異質性を含むためであり、標準的なSFT(教師あり微調整)ではもっともらしい誤った要素に対する識別が不十分になり、新しいレイアウトへの一般化もよくないと主張する。
  • Structural-Semantic Hard Negative Mining と Dual-Agent Consensus パイプラインにより、難しい紛らわしい要素(ハード・ディストラクタ)を生成し、検証を伴うドメイン横断のナビゲーション課題を構築した Triton データセット(590kインスタンス)を導入する。
  • プログレッシブ・カリキュラムを用いて、異なる能力を狙う3つの32Bモデルを段階的に学習させる:模倣(Triton-SFT-32B)、Odds Ratio Preference Optimization(Triton-ORPO-32B)による堅牢な識別、Group Relative Policy Optimization(Triton-GRPO-32B)による長期ホライズンでの一貫性。
  • Mind2Webにおいて、Triton-GRPO-32Bはオープンソースでの最先端性能を達成し、Step Success Rateは58.7%である。さらに報告によれば、GPT-4.5やClaude-4.5を16%以上上回っており、カリキュラムとデータに基づく改善が、Webナビゲーションでは単なるスケール増大よりも有効になり得ることを示唆している。

要旨: テキストベースのWebエージェントは、自律的なWebナビゲーションにおいて計算効率を提供しますが、現実世界のHTMLはノイズが多様で異種性が高いため、堅牢なエージェントの開発は依然として困難です。標準的な教師あり微調整(SFT)の手法は、2つの重要な側面で失敗します。第一に、密に要素が配置されたページにおいてもっともらしいが誤りの要素を退けるための識別能力が欠けていること、第二に、未見のサイトレイアウトへの汎化が限定的であることです。これらの課題に対処するため、我々はTritonデータセット(590k件)と進行的な学習カリキュラムを導入します。Tritonは、構造的・意味的ハードネガティブマイニングにより位相的に類似した攪乱(distractor)を明示的に掘り起こし、厳密な検証を伴うデュアルエージェントのコンセンサス(Dual-Agent Consensus)により多様なドメイン横断タスクを合成することで構築されます。この基盤の上で、進行的カリキュラムは3つのモデルを生成します。基本的な模倣にはTriton-SFT-32B、Odds Ratio Preference Optimizationによる堅牢な識別にはTriton-ORPO-32B、Group Relative Policy Optimizationによる長期ホライズンの一貫性にはTriton-GRPO-32Bです。Mind2Webでの実証評価により、Triton-GRPO-32Bは、ステップ成功率58.7%により、オープンソースモデル群の中で最先端の性能を達成し、GPT-4.5(42.4%)およびClaude-4.5(41.4%)を16%以上上回ることが示されました。これは、Webナビゲーションにおいて、生のパラメータ規模よりも専門化されたデータカリキュラムの方が重要であることを裏付けています。