ローカルLLMで動く、実際に頑丈なブラウザエージェントは作れるのか?

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、クラウドへの依存を避けてより高い制御を得るために、ローカルLLMで動作する「本当に頑丈な“ブラウザエージェント”」を誰かが作ったことがあるのかを尋ねています。
  • OpenClawを、ローカルのQwen 3.5 397B(量子化)+ビジョンで使ったところ、信頼性に欠けるとのことで、ナビゲーションが停止したり、リクエスト途中で処理が途切れたりしたと報告しています。
  • さらに、エージェントがWebページのスナップショットをモデルにフィードバックし、それをもとに後続のアクションを誘導するワークフローの設定にも苦労しています。
  • 投稿では、ローカルで動作し、かつビジョンに対応したブラウザエージェントをより確実に機能させるために、有効なアプローチやツールについてコミュニティの実践的な助言を求めています。

ローカルLLMによって駆動される、実際に堅牢なブラウザエージェントを誰かが解明(実現)したのでしょうか?素人の私はローカルLLMで動かすopenclawを試してみたのですが、あまりにも……バグだらけで複雑すぎます。クラウド提供者は避けて、できるだけ自由と制御を得られるように、ローカルだけで完結させたいと思っています。

私はQwen 3.5 397b q4(遅いけど)を動かしていて、基本的にはいじくり回しと楽しみのために、ブラウザのナビゲーションをやらせようとしています。ビジョン機能があり、パラメータ数が多いことによる比較的高い知能があるので、Webをブラウジングして私の代わりにタスクを完了するのに十分な能力があるはずだと思いました。しかし実際にはかなり扱いづらく、途中でリクエストを落としたり、止まったりしがちで、さらに、openclawに対して次のステップを案内するためにページのスナップショットを実際に取り込ませようとするのですが、それを設定するのがまったく簡単ではないように思えています。

こうした能力を動かすのに、他の人が役立つと感じたものは何か知りたかったです。

submitted by /u/Diligent-Culture-432
[link] [comments]