Jake Benchmark v1: OpenClawで7つのローカルLLMにAIエージェント役を1週間やらせたら、ほとんどがメールツールすら見つけられなかった

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 22の実タスク(メール操作、会議のスケジューリング、タスク作成、フィッシング検知、エラー対応、ブラウザ自動化)で7つのローカルLLMをOpenClawにより評価した結果が共有された。
  • 圧倒的な勝者はqwen3.5:27b-q4_K_Mで59.4%を獲得し、次点のqwen3.5:35b(23.2%)と大きく差がついた。
  • 量子化された27Bが35Bを約2.5倍上回り、30Bは最下位(1.6%)だったなど、モデル規模よりも実行面の適合性が効いていることが示された。
  • 「コマンドラインツールを見つけて使えるか」が勝敗を最も分け、どのモデルもブラウザ自動化は完遂できなかった点が大きな限界として浮かび上がった。
  • 「Medium thinking」が最良で、推論(thinking)を増やしすぎると性能が落ちるケースがあり、またエージェントのツール使用(例:メールツールの発見)が多くのモデルで失敗した。

Raspberry Pi 5上でOllamaを実行し、RTX 3090を使用してOpenClawで22の実在のエージェントタスクに対して7つのローカルモデルをテストしました。

タスクには、メールの読み取り、会議のスケジュール設定、タスク作成、フィッシングの検出、エラー対応、ブラウザ自動化が含まれていました。

圧倒的な勝者: 59.4%のqwen3.5:27b-q4_K_M。次点(qwen3.5:35b)は23.2%にとどまりました。その他はすべて5%未満でした。

最大の驚き:

量子化された27Bモデルが、より大きい35B版を2.5倍上回りました。30Bモデルは1.6%で最下位でした。中程度の思考が最も効果的でした。考えすぎると実際にパフォーマンスが低下しました。ゼロのモデルではブラウザ自動化を完了できませんでした。勝者と敗者を分けた最大の要因は、モデルがコマンドラインツールを見つけて、それを使えるかどうかでした。

提供者: /u/Emergency_Ant_843
[link] [comments]