Apple M3 Ultra上で5つのエージェント・フレームワークを横断比較：Qwen 3.6 vs 他6モデルの性能と互換性マトリクス

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事は、Apple M3 Ultra（256GBユニファイドメモリ）上で、Qwen 3.6に加え他6モデルを5つのエージェント・フレームワークで比較する「エージェント互換性マトリクス」を提示しています。
Qwen系は構造化されたツール呼び出しで一貫して高い合格率を示し、Qwen 3.6 35Bは（多くのフレームワークで）ほぼ100%を達成しており、正確性と速度の両面で最も良い結果になっています。
Qwen以外のモデルは互換性が大きく変動し（フレームワーク依存で）低い割合になることが多く、汎用的な性能を前提にできず、フレームワークごとの調整が必要になり得ると示唆しています。
ベンチマークには速度（トークン/秒）も含まれており、Qwen 3.6 35Bは約100 tok/s、他のモデルはそれより低いスループットでした。
結果として、ツール利用型のエージェント開発ではQwenのようなモデルを選ぶことで統合の手間を大幅に減らせる一方、代替モデルは同等の信頼性に到達するまでより多くのエンジニアリング努力が必要になる可能性が高いことを強調しています。

Apple Silicon上で5つのエージェント・フレームワークに対し、Qwen 3.6、Qwen 3.5、ほか5つのモデルをベンチマークしました。——こちらが完全な互換性マトリクスです。

ハードウェア: Apple M3 Ultra、256GB ユニファイドメモリ

テストしたフレームワーク: Hermes Agent（64K stars）、PydanticAI、LangChain、smolagents（HuggingFace）、OpenClaude/Anthropic SDK

テストしたモデル: Qwen 3.6 35B（新規）、Qwen 3.5 35B、Qwopus 27B、Qwen 3.5 27B、Llama 3.3 70B、DeepSeek-R1 32B、Gemma 4 26B

エージェント互換性マトリクス

これは、私が始める前に存在してほしかった部分です。各セル＝構造化ツール呼び出しテストにおける合格率（単一ツール、多ツール選択、多ターン、ストリーミング、ストレステスト、many-toolsインジェクション、no-leakチェック）です。

Model	Hermes	PydanticAI	LangChain	smolagents	OpenClaude	Speed
Qwen 3.6 35B（4bit）	100%	100%	93%	100%	100%	100%	100 tok/s
Qwen 3.5 35B（8bit）	100%	100%	100%	100%	100%	100%	83 tok/s
Qwopus 27B（4bit）	100%	100%	100%	100%	100%	100%	38 tok/s
Qwen 3.5 27B（4bit）	100%	100%	100%	—	—	—	38 tok/s
Gemma 4 26B（4bit）	100%	67%	—	100%	80%	—	~40 tok/s
DeepSeek-R1 32B（4bit）	55%	50%	—	100%	40%	—	~30 tok/s
Llama 3.3 70B（4bit）	45%	67%	67%	100%	—	—	~20 tok/s

要点: Qwenファミリーがツール呼び出しを完全に支配しています——すべてのQwenモデルが、全フレームワークで100%（またはほぼ100%）を達成。Qwen以外のモデルは、どのフレームワークを使うかでコインの裏表みたいに変わります。

Speedベンチマーク（decode tok/s、同じハードウェア）

Model	RAM	Speed	Tool Calling	Best For
Qwen3.5-4B（4bit）	2.4 GB	168 tok/s	100%	16GB MacBook、素早い反復
GPT-OSS 20B（mxfp4）	12 GB	127 tok/s	80%	スピード＋十分な品質
Qwen3.5-9B（4bit）	5.1 GB	108 tok/s	100%	ほとんどのMacでのちょうど良い帯域
Qwen 3.6 35B（4bit）	~20 GB	100 tok/s	100%	新規——256エキスパート、262K ctx
Qwen3.5-35B（8bit）	37 GB	83 tok/s	100%	トークンあたりの最高品質
Qwen3.5-122B（mxfp4）	65 GB	57 tok/s	100%	フロンティア級、96GB+のMac

参考までに、Ollamaは同じマシンでQwen3.5-9Bに対して約41 tok/sです。したがって、これらの数値は2〜3倍高速です。

モデル品質のベースライン（HumanEval + tinyMMLU）

スピードだけがすべてではありません——コード生成と知識において、モデルはどうなるのかを示します。

Model	HumanEval（10）	MMLU（10）	Tool Calling	MHI Score
Qwopus 27B	80%	90%	100%	92
Qwen 3.5 27B	40%	100%	100%	82
Qwen 3.5 35B（8bit）	60%	40%	100%	76
Qwen 3.6 35B（4bit）	20%	30%	100%	56
Llama 3.3 70B	50%	90%	varies	56-83
DeepSeek-R1 32B	30%	100%	varies	49-79

MHI = Model-Harness Index：50%のツール呼び出し＋30%のHumanEval＋20%のMMLU。「このモデルはエージェントのバックエンドとしてどれだけうまく動くか」を測定します。

Qwen 3.6の注記: HumanEval/MMLUが低いのは、おそらく日0モデルに対する4-bit量子化のアーティファクトです。リリースされてから数日しか経っていません。とはいえ、ツール呼び出しは完璧です——エージェントのバックエンドが欲しいだけなら、100 tok/sで100%互換を達成するこの選択が最速です。

興味深い発見

Qwen 3.6は驚くほど速い——256エキスパート、262Kコンテキストの35B MoEで100 tok/s。アクティブなパラメータが3Bしかないため、約20GBに収まります。
smolagentsは最も寛容なフレームワーク——DeepSeek-R1やLlama 3.3でさえsmolagentsでは100%に到達します。これは、構造化された関数呼び出しではなくテキストベースのコード生成を使うためです。もしモデルがFC（function calling）が苦手なら、smolagentsを試してみてください。
Hermes Agentは最も厳しいテスト——62個のツールを注入、多ターンのチェーン、ストリーミング。Hermesに合格するモデルは、すべてに合格します。
品質は8-bit ＞ 4-bit——8-bitのQwen 3.5 35Bは、4-bit版のより低いスコアに対してHumanEvalが60%。メモリに余裕があるなら8-bitが価値あります。
DeepSeek-R1はツール呼び出しに使わないでください——それは推論モデルであって、エージェントモデルではありません。フレームワークごとのツール呼び出し率は40〜55%。ただし数学にはとても良いです。

私がどうテストしたか

すべてのテストは同じ手法を使っています：

ツール呼び出し: 各ハーネスで7〜11のAPIテスト——単一ツール、ツール選択、ツール結果を含む多ターン、ストリーミングでのツール呼び出し、many-toolsインジェクション（Hermesでは62ツール）、ストレステスト（5回の連続呼び出しでタグのリークを確認）、no-tool-needed（モデルが直接回答できるか）
フレームワーク固有: 各フレームワークの独自テストスイート（PydanticAI 構造化出力、LangChain with_structured_output、smolagents CodeAgent + ToolCallingAgent）
HumanEval: completions エンドポイント経由で 10 タスク、temp=0
MMLU: completions エンドポイント経由で tinyMMLU の 10 問
速度: 最初のトークンではなく、定常状態でのデコード時間を計測

サーバーは Rapid-MLX です。これは Apple の MLX フレームワーク上に構築された、OpenAI 互換の推論サーバーです。テストコードはすべて、再現したい場合はリポジトリ内の vllm_mlx/agents/testing.py と scripts/mhi_eval.py にてオープンソースとして公開されています。