Jake Benchmark v1: I spent a week watching 7 local LLMs try to be AI agents with OpenClaw. Most couldn't even find the email tool.

Reddit r/LocalLLaMA / 3/24/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • 22の実タスク(メール操作、会議のスケジューリング、タスク作成、フィッシング検知、エラー対応、ブラウザ自動化)で7つのローカルLLMをOpenClawにより評価した結果が共有された。
  • 圧倒的な勝者はqwen3.5:27b-q4_K_Mで59.4%を獲得し、次点のqwen3.5:35b(23.2%)と大きく差がついた。
  • 量子化された27Bが35Bを約2.5倍上回り、30Bは最下位(1.6%)だったなど、モデル規模よりも実行面の適合性が効いていることが示された。
  • 「コマンドラインツールを見つけて使えるか」が勝敗を最も分け、どのモデルもブラウザ自動化は完遂できなかった点が大きな限界として浮かび上がった。
  • 「Medium thinking」が最良で、推論(thinking)を増やしすぎると性能が落ちるケースがあり、またエージェントのツール使用(例:メールツールの発見)が多くのモデルで失敗した。

I tested 7 local models on 22 real agent tasks using OpenClaw on a Raspberry Pi 5 with an RTX 3090 running Ollama.

Tasks included reading emails, scheduling meetings, creating tasks, detecting phishing, handling errors, and browser automation.

The winner by a massive margin: qwen3.5:27b-q4_K_M at 59.4%. The runner up (qwen3.5:35b) scored only 23.2%. Everything else was below 5%.

Biggest surprises:

The quantized 27B model beat the larger 35B version by 2.5x. A 30B model scored dead last at 1.6%. Medium thinking worked best. Too much thinking actually hurt performance. Zero models could complete browser automation. The main thing that separated winners from losers was whether the model could find and use command line tools.

submitted by /u/Emergency_Ant_843
[link] [comments]