AI Navigate

ローカル Qwen 8B プランナーと 4B エグゼクターが、一歩ずつ再計画することでブラウザ自動化を完了させる

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ローカル Qwen 8B プランナーと 4B エグゼクターは、各 DOM スナップショット後に再計画することでブラウザ自動化を達成し、事前の全タスク計画に依存するのではなく、不慣れなページでの信頼性を向上させる。
  • このアプローチは、id、role、text などのコンパクトでセマンティックな DOM 表現を使用するため、モデルは生の HTML やスクリーンショットを一切見ず、トークン要件を大幅に削減する。
  • Ace Hardware のデモでは、視覚情報なしの 4B エグゼクターを使用してカートの全フローを完了させ、約1.5万トークンに達した。視覚ベースのアプローチは約50,000〜100,000トークン以上だった。
  • モーダル処理の改善—各クリック後にオーバーレイをスキャンして閉じることで、隠れた UI 要素による失敗を大幅に減らした。
  • 結果は、段階的な計画が他の未知のサイトにも一般化できる可能性を示唆しており、Amazon のショッピングデモのフロー記録が追加の証拠として添付されている。
\"ローカル

小規模なローカルLLMは、全タスクを事前に計画するのをやめたとき、ブラウザ自動化が格段に改善されました。

繰り返し失敗したのはこれでした:

モデルはゴールを見てから、実際のページ状態を確認する前に、全ての多段階計画を考案します

それは馴染みのあるサイトでは機能しますが、予期せぬことが起きるとすぐに壊れます。

よりうまく機能したのは段階的計画でした:

Step 1: see search box → TYPE "grass mower" Step 2: see results → CLICK Add to Cart Step 3: drawer appears → dismiss it Step 4: cart visible → CLICK View Cart Step 5: DONE 

各ステップは現在のDOMスナップショットから再計画され、次に何が存在すべきかを前提としません。

もう1つこの動作を可能にしたのは、コンパクトなDOM表現です。モデルは生のHTMLやスクリーンショットを決して見ることはなく、意味的なテーブルだけを見ます:

id|role|text|importance|bg|clickable|nearby_text 665|button|Proceed to checkout|675|orange|1| 761|button|Add to cart|720|yellow|1|$299.99 1488|link|ThinkPad E16|478|none|1|Laptop 16"

したがって4Bの実行エンジニアは短いリストから要素IDを選ぶだけで済みます。これは、小型のローカルモデルを可能にする要因です—視覚アプローチはスクリーンショット1枚あたり2〜3Kトークンを消費しますが、全体の流れでは容易に50K〜100K+になります。コンパクトなスナップショット: 同じタスクで合計約15K。

Ace Hardwareで Qwen 8B プランナー + 4B エグゼクタを用いてテスト(モデルに事前タスクなしのサイト):

  • カートの全フローが完了
  • ビジョンなしモデル
  • 約15K トークンの合計(ビジョンの場合は約50K〜100K以上)

予想以上に重要だった点: モーダル処理。

各クリックの後、DOMが突然大きくなった場合、エージェントは再計画を行う前に閉じるパターン(close×no thanks など)をスキャンします。

それだけで、"悪い推論"のように見えた多くの失敗を修正しましたが、実際には隠れたオーバーレイでした。

サイトが馴染みのない場合、他の人が事前計画を前提とした段階的な beat を見ているかどうか気になります。

Amazonのショッピングデモには、このフローの録画が添付されています

投稿者 /u/Aggressive_Bed7113
[リンク] [コメント]
"} <|vq_ Islam>}]}]}]}|> }]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}}}