Raspberry Pi 5上でOllamaを実行し、RTX 3090を使用してOpenClawで22の実在のエージェントタスクに対して7つのローカルモデルをテストしました。
タスクには、メールの読み取り、会議のスケジュール設定、タスク作成、フィッシングの検出、エラー対応、ブラウザ自動化が含まれていました。
圧倒的な勝者: 59.4%のqwen3.5:27b-q4_K_M。次点(qwen3.5:35b)は23.2%にとどまりました。その他はすべて5%未満でした。
最大の驚き:
量子化された27Bモデルが、より大きい35B版を2.5倍上回りました。30Bモデルは1.6%で最下位でした。中程度の思考が最も効果的でした。考えすぎると実際にパフォーマンスが低下しました。ゼロのモデルではブラウザ自動化を完了できませんでした。勝者と敗者を分けた最大の要因は、モデルがコマンドラインツールを見つけて、それを使えるかどうかでした。
[link] [comments]