Apple Silicon上で5つのエージェント・フレームワークに対し、Qwen 3.6、Qwen 3.5、ほか5つのモデルをベンチマークしました。——こちらが完全な互換性マトリクスです。
ハードウェア: Apple M3 Ultra、256GB ユニファイドメモリ
テストしたフレームワーク: Hermes Agent(64K stars)、PydanticAI、LangChain、smolagents(HuggingFace)、OpenClaude/Anthropic SDK
テストしたモデル: Qwen 3.6 35B(新規)、Qwen 3.5 35B、Qwopus 27B、Qwen 3.5 27B、Llama 3.3 70B、DeepSeek-R1 32B、Gemma 4 26B
エージェント互換性マトリクス
これは、私が始める前に存在してほしかった部分です。各セル=構造化ツール呼び出しテストにおける合格率(単一ツール、多ツール選択、多ターン、ストリーミング、ストレステスト、many-toolsインジェクション、no-leakチェック)です。
| Model | Hermes | PydanticAI | LangChain | smolagents | OpenClaude | Speed | |
|---|---|---|---|---|---|---|---|
| Qwen 3.6 35B(4bit) | 100% | 100% | 93% | 100% | 100% | 100% | 100 tok/s |
| Qwen 3.5 35B(8bit) | 100% | 100% | 100% | 100% | 100% | 100% | 83 tok/s |
| Qwopus 27B(4bit) | 100% | 100% | 100% | 100% | 100% | 100% | 38 tok/s |
| Qwen 3.5 27B(4bit) | 100% | 100% | 100% | — | — | — | 38 tok/s |
| Gemma 4 26B(4bit) | 100% | 67% | — | 100% | 80% | — | ~40 tok/s |
| DeepSeek-R1 32B(4bit) | 55% | 50% | — | 100% | 40% | — | ~30 tok/s |
| Llama 3.3 70B(4bit) | 45% | 67% | 67% | 100% | — | — | ~20 tok/s |
要点: Qwenファミリーがツール呼び出しを完全に支配しています——すべてのQwenモデルが、全フレームワークで100%(またはほぼ100%)を達成。Qwen以外のモデルは、どのフレームワークを使うかでコインの裏表みたいに変わります。
Speedベンチマーク(decode tok/s、同じハードウェア)
| Model | RAM | Speed | Tool Calling | Best For |
|---|---|---|---|---|
| Qwen3.5-4B(4bit) | 2.4 GB | 168 tok/s | 100% | 16GB MacBook、素早い反復 |
| GPT-OSS 20B(mxfp4) | 12 GB | 127 tok/s | 80% | スピード+十分な品質 |
| Qwen3.5-9B(4bit) | 5.1 GB | 108 tok/s | 100% | ほとんどのMacでのちょうど良い帯域 |
| Qwen 3.6 35B(4bit) | ~20 GB | 100 tok/s | 100% | 新規——256エキスパート、262K ctx |
| Qwen3.5-35B(8bit) | 37 GB | 83 tok/s | 100% | トークンあたりの最高品質 |
| Qwen3.5-122B(mxfp4) | 65 GB | 57 tok/s | 100% | フロンティア級、96GB+のMac |
参考までに、Ollamaは同じマシンでQwen3.5-9Bに対して約41 tok/sです。したがって、これらの数値は2〜3倍高速です。
モデル品質のベースライン(HumanEval + tinyMMLU)
スピードだけがすべてではありません——コード生成と知識において、モデルはどうなるのかを示します。
| Model | HumanEval(10) | MMLU(10) | Tool Calling | MHI Score |
|---|---|---|---|---|
| Qwopus 27B | 80% | 90% | 100% | 92 |
| Qwen 3.5 27B | 40% | 100% | 100% | 82 |
| Qwen 3.5 35B(8bit) | 60% | 40% | 100% | 76 |
| Qwen 3.6 35B(4bit) | 20% | 30% | 100% | 56 |
| Llama 3.3 70B | 50% | 90% | varies | 56-83 |
| DeepSeek-R1 32B | 30% | 100% | varies | 49-79 |
MHI = Model-Harness Index:50%のツール呼び出し+30%のHumanEval+20%のMMLU。 「このモデルはエージェントのバックエンドとしてどれだけうまく動くか」を測定します。
Qwen 3.6の注記: HumanEval/MMLUが低いのは、おそらく日0モデルに対する4-bit量子化のアーティファクトです。リリースされてから数日しか経っていません。とはいえ、ツール呼び出しは完璧です——エージェントのバックエンドが欲しいだけなら、100 tok/sで100%互換を達成するこの選択が最速です。
興味深い発見
- Qwen 3.6は驚くほど速い——256エキスパート、262Kコンテキストの35B MoEで100 tok/s。アクティブなパラメータが3Bしかないため、約20GBに収まります。
- smolagentsは最も寛容なフレームワーク——DeepSeek-R1やLlama 3.3でさえsmolagentsでは100%に到達します。これは、構造化された関数呼び出しではなくテキストベースのコード生成を使うためです。もしモデルがFC(function calling)が苦手なら、smolagentsを試してみてください。
- Hermes Agentは最も厳しいテスト——62個のツールを注入、多ターンのチェーン、ストリーミング。Hermesに合格するモデルは、すべてに合格します。
- 品質は8-bit > 4-bit——8-bitのQwen 3.5 35Bは、4-bit版のより低いスコアに対してHumanEvalが60%。メモリに余裕があるなら8-bitが価値あります。
- DeepSeek-R1はツール呼び出しに使わないでください——それは推論モデルであって、エージェントモデルではありません。フレームワークごとのツール呼び出し率は40〜55%。ただし数学にはとても良いです。
私がどうテストしたか
すべてのテストは同じ手法を使っています:
- ツール呼び出し: 各ハーネスで7〜11のAPIテスト——単一ツール、ツール選択、ツール結果を含む多ターン、ストリーミングでのツール呼び出し、many-toolsインジェクション(Hermesでは62ツール)、ストレステスト(5回の連続呼び出しでタグのリークを確認)、no-tool-needed(モデルが直接回答できるか)
- フレームワーク固有: 各フレームワークの独自テストスイート(PydanticAI 構造化出力、LangChain with_structured_output、smolagents CodeAgent + ToolCallingAgent)
- HumanEval: completions エンドポイント経由で 10 タスク、temp=0
- MMLU: completions エンドポイント経由で tinyMMLU の 10 問
- 速度: 最初のトークンではなく、定常状態でのデコード時間を計測
サーバーは Rapid-MLX です。これは Apple の MLX フレームワーク上に構築された、OpenAI 互換の推論サーバーです。テストコードはすべて、再現したい場合はリポジトリ内の vllm_mlx/agents/testing.py と scripts/mhi_eval.py にてオープンソースとして公開されています。
TL;DR
Apple Silicon でエージェントを動かしているなら:
- 総合ベスト: Qwopus 27B(MHI 92、すべてで動作)
- 完全互換で最速: Qwen 3.6 35B(100 tok/s)
- 品質/トークン最良: Qwen 3.5 35B 8-bit(HumanEval 60%、100% ツール)
- 予算枠: 16GB の MacBook Air で Qwen3.5-4B(168 tok/s)
- エージェント用途では避ける: DeepSeek-R1、Llama 3.3(smolagents を使う場合を除く)
質問があれば答えたり、興味があれば追加のモデルを動かしたりします。
[リンク] [コメント]




