GLM 5.1 はエージェント型ベンチマークで他のあらゆるモデルを押しのけ、Opus を除いて最強に—しかも Opus の約1/3のコストで

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ユーザーが、実運用のエージェント型ベンチマーク(OpenClaw スタイルのバトルで、LLMをジャッジとして使用)で GLM 5.1 を試したところ、Opus と同等の性能(およそ Opus 4.6)を示しつつ、1回の実行あたりのコストは Opus の約1/3程度だと分かったと報告している。
  • このレポートでは、同じ評価条件でテストした他のすべてのモデルを GLM 5.1 が上回ったとされており、エージェントに特化したコスト効率において意味のある転換が起きていることを示唆している。
  • ユーザーは、固定的なリーダーボード型のベンチマークは誤解を招き得る点を強調し、ツール使用の振る舞いが重要であることを述べている。具体的には、GLM は Opus より約2倍多くトークンをタスクごとに消費しているが、それはより積極的なツール呼び出しによるものだと指摘している。
  • 「Opus の 1/3 のコスト」という発見は、トークン単価ではなくタスク/実行あたりのコストに基づくと説明している。つまり、追加されるトークンの増分は、より安価なトークン料金によって相殺される。
  • 投稿では、Qwen 3.6 も有力な代替手段だと触れている。ただし、OpenRouter 上ではプロンプトキャッシュがないため、実効コストが膨らんでいるとしており、キャッシュが利用できるようになれば、コスト面での競争力がさらに高まる可能性を示している。
GLM 5.1はエージェントのベンチマークでOpusを除く他のすべてのモデルを粉砕し、Opusコストの約1/3

https://preview.redd.it/s9lg647zjeug1.png?width=1161&format=png&auto=webp&s=4d0c361b5fbee97e4084e2d48543cafbc299ce25

GLMは別のベンチマーク最適化モデルなのか、それともOpenClawのようなエージェントで実際に有用なのかを知りたかったので、当方のエージェント向けベンチマークでGLM 5.1をテストしました。

その結果、私のテストでは、Opusと同等の4.6レベルの性能に、コストはわずか1/3で到達しました(1回あたり約$0.4 vs 約$1.2)。テストした他のすべてのモデルを上回ります。コスト効率の限界をかなり押し広げています。

私は静的なベンチマークをあまり信用していません。そうしたベンチマーク向けに最適化された多くのモデルが、リーダーボードでは高順位でも、実際のエージェントのタスクではうまく機能しないのを何度も見てきました。そこで、ユーザーが提出した実環境+実タスク(実タスク)で、OpenClawを使ってモデルのエージェント性能をテストします。Chatbot Arena/LMArenaのようなバトル形式で、LLMを審判にします。

結果から言うと、GLM 5.1は現時点でOpenClawタイプのエージェント向けのトップクラスのモデルの1つだと思います。

Qwen 3.6も良い仕事をしていますが、(openrouter上で)まだプロンプトキャッシュをサポートしていないため、現状の価格は割高になっています。プロンプトキャッシュが使えるようになれば、実行あたりのコストはminimax m2.7のレベルに到達し、コスト効率の面でまた別の非常に良い選択肢になるはずです。

完全なリーダーボード、コスト効率の分析、手法については https://app.uniclaw.ai/arena?via=reddit にあります。ぜひ自分のタスクを提出して、そこにおける異なるモデルの違いを確認することを強くおすすめします。

[編集1]

多くの人が「トークンあたりの価格」と「タスクあたりの価格」を混同しているようです。

GLM 5.1のトークンあたりの価格はOpusの<1/5です。ですが、同じタスクにおいて、当方のベンチマークではGLMはOpusに比べてタスクあたりのトークンを約2倍使用しています。理由は、GLMはOpusよりも2倍以上のツール呼び出しを行うなど、ツールを積極的に使うからです。そのため、実際のタスクあたりのコストはOpusの約1/3になります。

submitted by /u/zylskysniper
[link] [comments]