ローカル Qwen 8B プランナーと 4B エグゼクターが、一歩ずつ再計画することでブラウザ自動化を完了させる

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

ローカル Qwen 8B プランナーと 4B エグゼクターは、各 DOM スナップショット後に再計画することでブラウザ自動化を達成し、事前の全タスク計画に依存するのではなく、不慣れなページでの信頼性を向上させる。
このアプローチは、id、role、text などのコンパクトでセマンティックな DOM 表現を使用するため、モデルは生の HTML やスクリーンショットを一切見ず、トークン要件を大幅に削減する。
Ace Hardware のデモでは、視覚情報なしの 4B エグゼクターを使用してカートの全フローを完了させ、約1.5万トークンに達した。視覚ベースのアプローチは約50,000〜100,000トークン以上だった。
モーダル処理の改善—各クリック後にオーバーレイをスキャンして閉じることで、隠れた UI 要素による失敗を大幅に減らした。
結果は、段階的な計画が他の未知のサイトにも一般化できる可能性を示唆しており、Amazon のショッピングデモのフロー記録が追加の証拠として添付されている。

$\"ローカル$

小規模なローカルLLMは、全タスクを事前に計画するのをやめたとき、ブラウザ自動化が格段に改善されました。

繰り返し失敗したのはこれでした:

モデルはゴールを見てから、実際のページ状態を確認する前に、全ての多段階計画を考案します

それは馴染みのあるサイトでは機能しますが、予期せぬことが起きるとすぐに壊れます。

よりうまく機能したのは段階的計画でした:

Step 1: see search box → TYPE &quot;grass mower&quot; Step 2: see results → CLICK Add to Cart Step 3: drawer appears → dismiss it Step 4: cart visible → CLICK View Cart Step 5: DONE

各ステップは現在のDOMスナップショットから再計画され、次に何が存在すべきかを前提としません。

もう1つこの動作を可能にしたのは、コンパクトなDOM表現です。モデルは生のHTMLやスクリーンショットを決して見ることはなく、意味的なテーブルだけを見ます：

id|role|text|importance|bg|clickable|nearby_text 665|button|Proceed to checkout|675|orange|1| 761|button|Add to cart|720|yellow|1|$299.99 1488|link|ThinkPad E16|478|none|1|Laptop 16&quot;

したがって4Bの実行エンジニアは短いリストから要素IDを選ぶだけで済みます。これは、小型のローカルモデルを可能にする要因です—視覚アプローチはスクリーンショット1枚あたり2〜3Kトークンを消費しますが、全体の流れでは容易に50K〜100K+になります。コンパクトなスナップショット: 同じタスクで合計約15K。

Ace Hardwareで Qwen 8B プランナー + 4B エグゼクタを用いてテスト（モデルに事前タスクなしのサイト）:

カートの全フローが完了
ビジョンなしモデル
約15K トークンの合計（ビジョンの場合は約50K〜100K以上）

予想以上に重要だった点: モーダル処理。

各クリックの後、DOMが突然大きくなった場合、エージェントは再計画を行う前に閉じるパターン（close、×、no thanks など）をスキャンします。

それだけで、"悪い推論"のように見えた多くの失敗を修正しましたが、実際には隠れたオーバーレイでした。

サイトが馴染みのない場合、他の人が事前計画を前提とした段階的な beat を見ているかどうか気になります。

Amazonのショッピングデモには、このフローの録画が添付されています

投稿者 /u/Aggressive_Bed7113
[リンク] [コメント]

"} <|vq_ Islam>}]}]}]}|> }]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}]}}}

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

The massive shift toward edge computing and local processing

Dev.to

Self-Refining Agents in Spec-Driven Development

Dev.to

How to Optimize Your LinkedIn Profile with AI in 2026 (Get Found by Recruiters)

Dev.to

ローカル Qwen 8B プランナーと 4B エグゼクターが、一歩ずつ再計画することでブラウザ自動化を完了させる

要点

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

The massive shift toward edge computing and local processing

Self-Refining Agents in Spec-Driven Development

How to Optimize Your LinkedIn Profile with AI in 2026 (Get Found by Recruiters)

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer