模倣から識別へ：堅牢なWebナビゲーションのためのプログレッシブ・カリキュラム学習

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストベースのWebエージェントがうまく機能しにくいのは、現実世界のHTMLがノイズや異質性を含むためであり、標準的なSFT（教師あり微調整）ではもっともらしい誤った要素に対する識別が不十分になり、新しいレイアウトへの一般化もよくないと主張する。
Structural-Semantic Hard Negative Mining と Dual-Agent Consensus パイプラインにより、難しい紛らわしい要素（ハード・ディストラクタ）を生成し、検証を伴うドメイン横断のナビゲーション課題を構築した Triton データセット（590kインスタンス）を導入する。
プログレッシブ・カリキュラムを用いて、異なる能力を狙う3つの32Bモデルを段階的に学習させる：模倣（Triton-SFT-32B）、Odds Ratio Preference Optimization（Triton-ORPO-32B）による堅牢な識別、Group Relative Policy Optimization（Triton-GRPO-32B）による長期ホライズンでの一貫性。
Mind2Webにおいて、Triton-GRPO-32Bはオープンソースでの最先端性能を達成し、Step Success Rateは58.7%である。さらに報告によれば、GPT-4.5やClaude-4.5を16%以上上回っており、カリキュラムとデータに基づく改善が、Webナビゲーションでは単なるスケール増大よりも有効になり得ることを示唆している。

要旨: テキストベースのWebエージェントは、自律的なWebナビゲーションにおいて計算効率を提供しますが、現実世界のHTMLはノイズが多様で異種性が高いため、堅牢なエージェントの開発は依然として困難です。標準的な教師あり微調整（SFT）の手法は、2つの重要な側面で失敗します。第一に、密に要素が配置されたページにおいてもっともらしいが誤りの要素を退けるための識別能力が欠けていること、第二に、未見のサイトレイアウトへの汎化が限定的であることです。これらの課題に対処するため、我々はTritonデータセット（590k件）と進行的な学習カリキュラムを導入します。Tritonは、構造的・意味的ハードネガティブマイニングにより位相的に類似した攪乱（distractor）を明示的に掘り起こし、厳密な検証を伴うデュアルエージェントのコンセンサス（Dual-Agent Consensus）により多様なドメイン横断タスクを合成することで構築されます。この基盤の上で、進行的カリキュラムは3つのモデルを生成します。基本的な模倣にはTriton-SFT-32B、Odds Ratio Preference Optimizationによる堅牢な識別にはTriton-ORPO-32B、Group Relative Policy Optimizationによる長期ホライズンの一貫性にはTriton-GRPO-32Bです。Mind2Webでの実証評価により、Triton-GRPO-32Bは、ステップ成功率58.7%により、オープンソースモデル群の中で最先端の性能を達成し、GPT-4.5（42.4%）およびClaude-4.5（41.4%）を16%以上上回ることが示されました。これは、Webナビゲーションにおいて、生のパラメータ規模よりも専門化されたデータカリキュラムの方が重要であることを裏付けています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/15Dailyインサイトを見る →

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

模倣から識別へ：堅牢なWebナビゲーションのためのプログレッシブ・カリキュラム学習

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減