30xのトークン削減、さらにQwen 3.5 9Bを「ポテト」デバイス上で使った場合にTTFTを12x削減するWeb用エージェントハーネス（そして、いいえ、私はビジョン機能は使っていません）

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

原文を読む →

共有:

要点

ブラウザ用エージェントは、レンダリングされたページをそのまま渡されると、過剰なトークンとコンテキストを消費してしまうため、著者はエージェントに送る前にレンダリングされたDOMをマークダウン風の形式に圧縮することを提案している。
限られた「ポテト」用ハードウェアでQwen 3.5 9Bを用いた実験では、この手法により生のDOMに比べてトークン消費が約32x削減され、TTFTは約106秒から約8.4秒に短縮されたと報告されている。加えて、パースにかかる追加時間は約30ms程度にとどまる。
プロジェクト（「@tidesurf/core」、v0.3）には、モデルがツール呼び出しをサポートしている限りモデルをまたいで動作する18のインタラクティブなページ用ツールが含まれており、CLIとMCPの両方の統合に対応している。
この投稿は、結果が初期のテスト／実験に基づくものであることを強調し、ハーネスの検証と改善のためにコミュニティからの追加フィードバックを歓迎している。

Web use agent harness w/ 30x token reduction, 12x TTFT reduction w/ Qwen 3.5 9B on potato device (And no, I did not use vision capabilities)

ブラウザ利用エージェントは、具体的なソースよりもモデル本来のマルチモーダル性を好む傾向があり、たとえそうでなくても、それでもなお、最低限動かすのにすら多すぎるコンテキスト量を取りがちです。

私はLLMエージェントを使っていてこの問題にぶつかりました。そこで、あるアイデアを思いつきました。レンダリングされたDOMを、マークダウンのような圧縮付きで、エージェントに送れないでしょうか？

結果として、うまくいきました！少なくとも私の実験では、GitHub上で（生のDOMと比べて）トークン消費を32倍削減しつつ、パース時間は約30msにしかならない、という結果でした。

さらに、ページとインタラクティブにLLMが作業するための18個のツールが付属しており、ツール呼び出し機能を備えている限り、使っているモデルに関係なくすべて動作します。CLIでもMCPでも動きます。

とはいえ、まだ初期のプロジェクトです（v0.3）。なので、ぜひ他にもフィードバックを聞かせてください。

npm: https://www.npmjs.com/package/@tidesurf/core
概要: https://tidesurf.org
GitHub: https://github.com/TideSurf/core
ドキュメント : https://tidesurf.org/docs

実験メトリクス
モデル: https://huggingface.co/MercuriusDream/Qwen3.5-9B-MLX-lm-nvfp4
- 推論オフ
- Q8 KVキャッシュの量子化
- その他の設定はデフォルト

テスト済みHW:
- MacBook Pro 14" Late 2021
- MacOS Tahoe 26.2
- M1 Pro, 14C GPU
- 16GB LPDDR5 ユニファイドメモリ

テスト済み環境:
- LM Studio 0.4.7-b2
- LM Studio MLX ランタイム

数値（生のDOM v. TideSurf）
Tok/s: 24.788 vs 26.123
TTFT: 106.641s vs 8.442s
Gen: 9.117s vs 6.163s
PromptTok: 17,371 vs 3,312 // ここにはツール定義を含む。生トークンは < 1k
InfTok: 226 vs 161

edit: numbers

投稿者: /u/MercuriusDream
[link] [comments]