OpenClaw上のGLM-5:セットアップガイド、ベンチマーク、そして…

Dev.to / 2026/4/15

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • GLM-5は、Zhipu AIの2026年2月のフラッグシップとして、MITライセンスのオープンウェイトMixture of Experts(MoE)モデルだとされている。総パラメータ数は744B、推論1パスあたりのアクティブパラメータ数は40B。
  • 記事では、GLM-5がHuawei Ascend 910Bのハードウェア上で完全に学習されたと強調しており、非NVIDIAのAIシリコン性能に関する注目すべきベンチマークとして位置付けている。
  • GLM-5は、より高コストなモデル(例:Claude/GPT-4)と比較して、コーディングと数学における「中間的な立ち位置」を提供すると主張している。低コストで強力な能力を目指すという狙いだ。
  • OpenClawユーザー向けに、このガイドでは複数の統合ルート(Ollama、OpenRouter、Z.ai API経由)を取り上げ、さまざまなデプロイ/エージェントのバックエンド構成に対応することを重視している。
  • また、読者に対して公式リソース(Hugging FaceおよびZhipu AI/Z.ai)を案内し、GLM-5をエージェントのワークフローに向けて幅広く利用しやすいものとして位置付けている。

もともとは Remote OpenClaw に掲載されました。

GLM-5 on OpenClaw: セットアップガイド、ベンチマーク、そして使うべきタイミング

マーケットプレイス

OpenClaw向けの無料スキルとAIパーソナ——マーケットプレイスを閲覧します。

マーケットプレイスを見る →

コミュニティに参加する

デプロイガイド、セキュリティ設定、ワークフローの自動化を共有する1,000人以上のOpenClawオペレーターに参加しましょう。

コミュニティに参加する →

GLM-5とは?

GLM-5は、北京を拠点とするAI研究ラボZhipu AIによるフラッグシップの大規模言語モデルです。Zhipu AIは2022年以来、GLM(General Language Model)シリーズを開発してきました。MITライセンスのもと、2026年2月に公開されたGLM-5は、公開されて利用可能な最大規模のオープンウェイトのMixture of Expertsモデルの1つであり、総パラメータは7,440億、推論1パスあたりのアクティブは400億です。

GLM-5が単に“サイズ”で注目されるだけでないのは、ハードウェア面の背景です。学習はすべてHuawei Ascend 910Bチップ上で行われており、NVIDIAのハードウェアなしで学習されたモデルとしては最高の性能を持ちます。AIのハードウェア供給チェーンを追っている運用者にとって、これはNVIDIA以外のシリコンでどこまで提供できるのかを示す重要なデータポイントです。

OpenClawのオペレーターにとってGLM-5は、実用的な中間地点を提供します。ClaudeやGPT-4の費用の一部で、最前線級のコーディングおよび数学の性能を得られます。また、3つの異なる統合パスを通じて利用できるため、エージェントのバックエンド向けとして比較的導入しやすいオープンモデルの1つになっています。

公式リンク:

アーキテクチャと仕様

GLM-5はMixture of Experts(MoE)アーキテクチャを採用しています。つまり、モデルの総パラメータは7,440億ですが、各フォワードパスでアクティブになるのは約400億にとどまります。この設計により、GLM-5はより大きなモデルに匹敵する知識容量を持ちながら、推論コストを現実的な範囲に抑えられます。

仕様

総パラメータ

7440億

アクティブパラメータ

1フォワードパスあたり約400億

アーキテクチャ

Mixture of Experts(MoE)

学習ハードウェア

Huawei Ascend 910B

リリース日

2026年2月

ライセンス

MIT

開発元

Zhipu AI(Z.ai)

モダリティ

テキストのみ

コンテキストウィンドウ

128Kトークン

MITライセンスは、この規模のモデルがリリースされた中で最も許容度の高いライセンスです。MetaのLlamaライセンス(毎月アクティブユーザーが7億人を超える企業を制限する)や、中国の研究所が用意したさまざまなカスタムライセンスとは異なり、MITは利用に関する制限を一切課しません。GLM-5を商用利用し、改変し、再配布し、そしてその上に独自のプロダクトを構築できます。

ベンチマークとパフォーマンス

GLM-5は、コーディングおよび数学的推論のベンチマークで強力な結果を示します。主要な数値は以下のとおりです:

ベンチマーク

GLM-5スコア

コンテキスト

SWE-bench Verified

77.8%

オープンモデルのトップクラス。Claude Sonnet 4と互角

AIME 2024

92.7%

競技レベルの数学でほぼ完璧

HumanEval

91.2%

自然言語からの強力なコード生成

MMLU

88.4%

57科目にわたる幅広い知識カバー範囲

SWE-bench Verifiedの77.8%というスコアは、コードエージェントを実行するOpenClawオペレーターにとって最も重要な数値です。SWE-benchは、現実世界のGitHubの課題をエンドツーエンドで解決する能力を測定します。つまり、課題の説明を読み、関連するコードを特定し、修正を生成し、有効なパッチを作り出すという一連の流れです。77.8%のスコアは、GLM-5が自律的に、おおよそ5つの実ソフトウェア開発タスクのうち4つを扱えることを意味します。

AIME 2024の92.7%というスコアは、GLM-5が競技レベルの高度な数学的推論を扱えることを示しています。これはデータ分析、金融モデリング、そして手順ごとの定量ロジックを必要とするあらゆるワークフローにうまく転用できます。

提供元ごとの料金

GLM-5は、複数のプロバイダーでさまざまな価格帯で提供されています:

プロバイダー

入力(1Mトークンあたり)

出力(1Mトークンあたり)

無料枠

Ollama Cloud

無料

無料

はい(レート制限あり)

Z.ai API

約$0.50

約$1.80

はい(開発者向けの枠が手厚い)

OpenRouter

$0.72

$2.30

いいえ

比較として、OpenRouter上のClaude Sonnet 4は、入力トークン100万あたり$3.00、出力トークン100万あたり$15.00です。OpenRouterでのGLM-5は、Claude Sonnetに比べて入力コストが約24%、出力コストが15%です。大量のエージェント運用において大幅な節約になります。

マーケットプレイス

OpenClaw向けの無料スキルとAIパーソナ——マーケットプレイスを閲覧します。

マーケットプレイスを見る →

統計:総パラメータ744B、フォワードパスあたりのアクティブ40B、SWE-benchスコア77.8%、入力トークンコスト$0.72/M

把握しておきたい主要数値

セットアップ方法1:Ollama Cloud(無料)

Ollama CloudはGLM-5の無料ホスティング推論を提供しているため、OpenClawでモデルを最速で試す方法として最適です。レート制限付きのアクセスのため、APIキーは不要です。

手順1:Ollamaをインストールする

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh

# インストールを確認
ollama --version

手順2:GLM-5を取得(Pull)する

返却形式: {"translated": "翻訳されたHTML"}
# ローカル/クラウド利用のためにモデルを取得する
ollama pull glm5

# モデルが利用可能か確認する
ollama list

ステップ 3: OpenClaw を設定する

# OpenClaw の設定(例: ~/.openclaw/config.yaml)
llm:
  provider: ollama
  model: glm5
  base_url: http://localhost:11434
  temperature: 0.7
  max_tokens: 8192

ステップ 4: 接続をテストする

# Ollama が GLM-5 を提供していることを確認する
curl http://localhost:11434/api/generate -d '{
  "model": "glm5",
  "prompt": "こんにちは、動いていますか?",
  "stream": false
}'

# OpenClaw を起動する
openclaw start

なお、Ollama Cloud の無料枠にはレート制限があります。継続的にトラフィックがある本番運用では、OpenRouter または Z.ai のルートの方が信頼性が高いです。

セットアップ方法 2: OpenRouter API

OpenRouter は、GLM-5 に加えて他にも多数のモデルへルーティングする統一 API を提供しています。セットアップを再設定せずにモデルを切り替えたい場合に最も柔軟な選択肢です。

ステップ 1: OpenRouter の API キーを取得する

openrouter.ai にサインアップし、ダッシュボードから API キーを生成します。アカウントにクレジットを追加してください — たとえ $5 でも、GLM-5 の価格なら数千回のリクエストに相当します。

ステップ 2: OpenClaw を設定する

# OpenClaw の設定(例: ~/.openclaw/config.yaml)
llm:
  provider: openrouter
  model: zhipu/glm-5
  api_key: your-openrouter-api-key
  temperature: 0.7
  max_tokens: 8192

ステップ 3: OpenClaw を起動する

openclaw start

OpenRouter は自動的にロードバランシングとフェイルオーバーを処理します。あるバックエンドで GLM-5 のサービスが一時的に中断された場合、OpenRouter は別のバックエンドへルーティングします。これにより、直接 API 接続よりも高い稼働時間を実現できます。

セットアップ方法 3: Z.ai API(ダイレクト)

Z.ai は Zhipu AI 自身の推論プラットフォームです。トークン単価が最も低く、無料の開発者向け枠も十分に用意されています。GLM-5 を主力モデルとして使い、可能な限りコストを抑えたい場合に最適です。

ステップ 1: Z.ai アカウントを作成する

z.ai にサインアップして API キーを生成します。無料枠には、資金を追加する必要が出る前に実施できるだけの十分なクレジットが含まれています。

ステップ 2: OpenClaw を設定する

# OpenClaw の設定(例: ~/.openclaw/config.yaml)
llm:
  provider: openai-compatible
  model: glm-5
  api_key: your-zai-api-key
  base_url: https://open.bigmodel.cn/api/paas/v4
  temperature: 0.7
  max_tokens: 8192

ステップ 3: OpenClaw を起動する

openclaw start

Z.ai の API は OpenAI 互換フォーマットに従うため、OpenClaw の OpenAI プロバイダーはそのまま動作します。あとはベース URL を Z.ai のエンドポイントに向けるだけです。

GLM-5 vs Claude vs GPT

以下は、OpenClaw の運用者がよく使用する主要な独自モデルに対して、GLM-5 がどのように位置づけられるかです。

指標

GLM-5

Claude Sonnet 4

GPT-4.1

SWE-bench Verified

77.8%

~79%

~78%

AIME 2024

92.7%

~88%

~90%

入力コスト(OpenRouter)

$0.72/M

$3.00/M

$2.00/M

出力コスト(OpenRouter)

$2.30/M

$15.00/M

$8.00/M

ビジョン

いいえ

はい

はい

最大スループット

~69 tok/s

~120 tok/s

~100 tok/s

ライセンス

MIT(オープン)

独自

独自

要点として、GLM-5 はコーディングのベンチマークにおいて Claude や GPT にかなり近づいており、価格はその一部です。実際、AIME 2024 の数学スコアでは両方に勝っています。一方で、ビジョン非対応、スループットが遅いこと、そしてニュアンスのあるタスクで英語出力が十分に洗練されていないことがトレードオフです。

GLM-5 が適切な選択になるとき

以下のようなシナリオでは、GLM-5 はあなたの OpenClaw 設定に適したモデルです。

  • コスト重視のコーディングエージェント: エージェントが主にコードを書いたり、レビューしたり、デバッグしたりするなら、GLM-5 は SWE-bench における Claude の性能を約 98% の水準で提供しつつ、入力コストは約 24% です。1 日に数百件のリクエストを処理するような高ボリュームのワークフローでは、この差はすぐに効いてきます。
  • 数学・データ分析: GLM-5 の 92.7% という AIME スコアは、金融モデリング、データ変換、統計分析などの定量的な推論タスクを、独自モデルと同等、またはそれ以上のレベルでこなせることを意味します。
  • 中国語のワークフロー: GLM-5 は中国の研究機関によって開発され、大規模な中国語データで学習されました。中国語を話すユーザーに対応する運用者、または中国語ドキュメントを処理する運用者にとって、GLM-5 は利用可能な最有力の選択肢です。
  • オープンウェイト要件: コンプライアンス、プライバシー、またはエアギャップ環境のためにモデルを自前でホストする必要がある場合、GLM-5 の MIT ライセンスにより自由度が最大化されます。API プロバイダーに依存せず、自分のハードウェアで動かせます。
  • 予算を抑えた実験: Ollama Cloud が無料アクセスを提供し、Z.ai が無料の開発者向け枠を用意しているため、GLM-5 は、有料モデルにコミットする前にエージェントのワークフローをテストする際の最良の選択肢の一つです。

制限事項

GLM-5 には、主要な OpenClaw バックエンドとして採用する前に理解しておくべき明確な制限があります。

  • テキストのみ: GLM-5 はビジョンまたは音声入力をサポートしません。エージェントがスクリーンショット、画像、視覚要素を含む PDF、または音声を処理する必要がある場合は、別のモデルが必要です。Gemma 4 または Claude はマルチモーダルなワークフローにより適しています。
  • スループットの上限: OpenRouter では 1 秒あたり約 69 トークンのため、GLM-5 は Claude(約 120 tok/s)や GPT-4.1(約 100 tok/s)より明確に遅いです。ユーザーが応答を待つようなレイテンシーに敏感なアプリケーションでは、致命的な制約になる可能性があります。
  • 英語の言い回し: 複雑な英語の文章作成タスク — 長文コンテンツ、微妙なニュアンスを含む説明、創作文 — において、GLM-5 はときどき不自然に感じられる表現を生成します。内容としては正確ですが、翻訳されたように読めることがあります。コードや構造化された出力では問題になりませんが、ユーザー向けの英語テキストでは問題になる可能性があります。
  • 小さめの西洋圏エコシステム: GLM-5 は Llama、Gemma、Qwen モデルに比べて、コミュニティのリソース、微調整された派生版、統合ガイドが少なめです。そのため、設定作業をより多く自分で行う必要があるかもしれません。
  • セルフホスト用のハードウェア: 総パラメータ数は 744B です。フル精度で GLM-5 を自前でホストするには、大規模なインフラが必要になります。量子化版(q4)では、アクティブパラメータに必要なメモリが約 48〜64GB RAM まで下がりますが、それでも多くの一般的な家庭用ハードウェアの範囲を超えています。

よくある質問

Ollama でローカルに GLM-5 を動かせますか?

返却形式: {"translated": "翻訳されたHTML"}

はい。GLM-5はOllama Cloudで無料の推論として利用でき、ローカル実行用に量子化バージョンを取り込むこともできます。ただし、合計7440億パラメータ(アクティブは400億)のため、ローカルで動かすにはq4量子化で少なくとも32GBのRAMが必要です。対応したワークステーションかサーバーが必要になります。ほとんどのオペレーターにとっては、OpenRouterまたはZ.aiのAPI経由の方が現実的です。

GLM-5はOpenClawのタスクでClaude Sonnetと比べてどうですか?

GLM-5はSWE-bench Verifiedで77.8%のスコアを出しており、Claude Sonnet 4やGPT-4.1と競り合う水準です。コーディング中心のワークフローでは、GLM-5はうまく機能します。一方で、創作の文章作成、きめ細かな推論、複雑なマルチステップのエージェントタスクでは、Claude Sonnetの方が依然として優位です。GLM-5の主な強みはコストで、OpenRouterでは入力トークン100万あたり$0.72のため、Claude Sonnetよりおおよそ70%安くなります。

GLM-5は無料で使えますか?

部分的に。GLM-5はOllama Cloudで無料で利用でき、またZ.aiは開発者向けに十分に寛大な無料枠を提供しています。OpenRouterでは、入力トークン100万あたり$0.72、出力トークン100万あたり$2.30を支払います。モデルの重みはMITライセンスで公開されているため、必要なハードウェアがあれば追加の限界コストなしでセルフホストできます。

GLM-5の主な制限は何ですか?

GLM-5はテキストのみ対応です(ビジョンや音声はサポートなし)。推論速度はOpenRouterで最大で約69トークン/秒ですが、Gemma 4やLlama 3.3のような競合モデルより遅いです。さらに、このモデルは西洋系モデルに比べて英語の学習コーパスが小さいため、複雑な英語タスクではときどき不自然な言い回しを生成します。ただし、多言語、または中国語のワークフローでは、優れた性能を発揮します。

さらに読む