Jake Benchmark v1: OpenClawで7つのローカルLLMにAIエージェント役を1週間やらせたら、ほとんどがメールツールすら見つけられなかった

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

22の実タスク（メール操作、会議のスケジューリング、タスク作成、フィッシング検知、エラー対応、ブラウザ自動化）で7つのローカルLLMをOpenClawにより評価した結果が共有された。
圧倒的な勝者はqwen3.5:27b-q4_K_Mで59.4%を獲得し、次点のqwen3.5:35b（23.2%）と大きく差がついた。
量子化された27Bが35Bを約2.5倍上回り、30Bは最下位（1.6%）だったなど、モデル規模よりも実行面の適合性が効いていることが示された。
「コマンドラインツールを見つけて使えるか」が勝敗を最も分け、どのモデルもブラウザ自動化は完遂できなかった点が大きな限界として浮かび上がった。
「Medium thinking」が最良で、推論（thinking）を増やしすぎると性能が落ちるケースがあり、またエージェントのツール使用（例：メールツールの発見）が多くのモデルで失敗した。

Raspberry Pi 5上でOllamaを実行し、RTX 3090を使用してOpenClawで22の実在のエージェントタスクに対して7つのローカルモデルをテストしました。

タスクには、メールの読み取り、会議のスケジュール設定、タスク作成、フィッシングの検出、エラー対応、ブラウザ自動化が含まれていました。

圧倒的な勝者: 59.4%のqwen3.5:27b-q4_K_M。次点（qwen3.5:35b）は23.2%にとどまりました。その他はすべて5%未満でした。

最大の驚き:

量子化された27Bモデルが、より大きい35B版を2.5倍上回りました。30Bモデルは1.6%で最下位でした。中程度の思考が最も効果的でした。考えすぎると実際にパフォーマンスが低下しました。ゼロのモデルではブラウザ自動化を完了できませんでした。勝者と敗者を分けた最大の要因は、モデルがコマンドラインツールを見つけて、それを使えるかどうかでした。

提供者: /u/Emergency_Ant_843
[link] [comments]

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

Jake Benchmark v1: OpenClawで7つのローカルLLMにAIエージェント役を1週間やらせたら、ほとんどがメールツールすら見つけられなかった

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer