AIは8時間労働日に参入:GLMがオープンソースの5.1 LLMを出荷、SWE-Bench ProでOpus 4.6とGPT-5.4を上回る

VentureBeat / 2026/4/8

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Z.ai/Zhupai AIは、緩やかな許諾条件のMITライセンスでオープンソースのGLM-5.1 LLMをリリースした。Hugging Face経由で企業向けにダウンロードでき、カスタマイズや商用利用も可能。
  • GLM-5.1は、長期ホライズンの自律エージェント型エンジニアリングに向けた大きな前進だと位置づけており、目標整合性を維持しながら、最大8時間の実効的な単一タスク運用と、数千回のツール呼び出しを実現すると主張している。
  • このモデルは754BのMixture-of-Experts(MoE)で、202,752トークンのコンテキストウィンドウを備える。記事ではSWE-Bench Proで強いベンチマーク結果が報告されており、Opus 4.6およびGPT-5.4を上回るとしている。
  • Z.aiは、この技術的進歩を「階段状(staircase pattern)」の最適化として説明している。エージェントのワークフローでよく見られる停滞(プラトー)や戦略ドリフトを回避するために、段階的な微調整フェーズと構造的な変更を組み合わせるという。
  • 戦略的には、本リリースはZ.aiの取り組みの一環として位置づけられている。より多くの推論トークン“だけ”を強調するのではなく、マラソン型の生産性を打ち出すことで、地域の独立系LLM開発者におけるリーダーシップを確固たるものにすることを目指している。

中国はオープンソースのAIバトンを再び取り戻そうとしているのか?

中国のAIスタートアップZ.ai(Zhupai AIとしても知られる)は、高性能なオープンソースのGLMファミリーのモデルで特に知られており、寛容なMITライセンスの下で本日GLM-5.1を発表しました。これにより、企業はそれをダウンロードし、カスタマイズし、商用目的で利用できます。利用先はHugging Faceです。

これは、先月に出したGLM-5 Turboのリリース(エージェント向けで、より高速かつより安価なバージョン)が、プロプライエタリ(専有)ライセンスのみだったことに続く動きです。

新しいGLM-5.1は、単一のタスクで最長8時間の自律稼働が可能になるよう設計されており、「雰囲気でのコーディング(vibe coding)」から「エージェント的なエンジニアリング」への決定的な転換を示しています。

今回のリリースは、人工知能の進化における転換点を意味します。競合が、より良い論理のために推論トークン数を増やすことに注力してきた一方で、Z.aiは生産的な到達範囲(productive horizons)を最適化しています。

GLM-5.1は、7,540億パラメータのMixture-of-Expertsモデルであり、数千件に及ぶツール呼び出しにまたがる長時間の実行トレースにおいても目標整合性を維持するよう設計されています。

「『エージェントは年末までに約20ステップできる』というのができることでした」と、X(旧Twitter)でz.aiのリーダーLouが投稿しました。「glm-5.1は1,700 rnまで可能。自律的に働く時間は、スケーリング則のあとで最も重要な曲線かもしれません。glm-5.1は、その曲線をオープンソース・コミュニティが自分たちの手で検証できる最初の地点になります。みんな気に入ってくれるといい^^」

高速モデルがますますひしめく市場のなかで、Z.aiはマラソンランナーに賭けています。2026年初めに香港証券取引所へ上場し、市場時価総額が528.3億ドルである同社は、このリリースを、同地域における大規模言語モデルの主要な独立系開発者としての地位を固めるために用いています。

テクノロジー:最適化の階段状パターン

GLM-5.1の中核となる技術的ブレークスルーは、もちろんその規模だけではありません。7,540億パラメータと202,752トークンのコンテキストウィンドウは強力ですが、それ以上に重要なのは、これまでのモデルで見られたプラトー(頭打ち)効果を回避する能力です。

従来のエージェント的ワークフローでは、モデルは通常、素早い初期の伸びを得るためにいくつかの馴染みのある手法を適用し、その後は止まってしまいます。さらに時間を与える、あるいはより多くのツール呼び出しを行わせると、通常は収益逓減や戦略の逸脱が起きます。

Z.aiの研究では、GLM-5.1が彼らの言う「階段状パターン」によって動作することを示しています。これは、固定された戦略のもとでの漸進的なチューニング期間が、性能フロンティアを押し広げるような構造的な変化によって区切られていることを特徴とします。

技術レポートのScenario 1では、モデルに、高性能なベクターデータベースの最適化(VectorDBBenchとして知られる課題)が課されました。

モデルにはRustのスケルトンと空の実装スタブが与えられ、その後、ツール呼び出しベースのエージェントを使ってコードを編集し、コンパイルし、テストし、プロファイルします。Claude Opus 4.6のような既存の最先端モデルが到達した性能上限が1秒あたり3,547クエリだったのに対し、GLM-5.1は655回の反復と6,000回超のツール呼び出しを実行しました。この最適化の軌跡は直線的ではなく、構造的なブレークスルーによって区切られていました。

反復90の時点で、モデルは全文探索から、f16ベクタ圧縮を用いたIVFクラスタの探索(プロービング)へ切り替えました。これにより、ベクタ1つあたりの帯域幅が512バイトから256バイトに削減され、性能は1秒あたり6,400クエリへ跳ね上がりました。

反復240までに、モデルは自律的に、u8のprescoringとf16のrerankingを組み合わせた2段階パイプラインを導入し、1秒あたり13,400クエリに到達しました。最終的にモデルは、スーパークラスタによる階層ルーティングや、VNNIによるセントロイドスコアリングを用いた量子化ルーティングなど、6つの構造的なボトルネックを特定して解消しました。これらの取り組みは最終結果として1秒あたり21,500クエリをもたらし、50ターンの単一セッションで達成された最良の結果の約6倍でした。

これは、モデルが自ら研究開発部門として機能し、複雑な問題を分解して、実際の精度で実験を回していることを示しています。

モデルはさらに、複雑な実行の引き締め(tightening)も管理し、スケジューリングのオーバーヘッドを下げ、キャッシュ局所性を改善しました。Approximate Nearest Neighbor検索の最適化の間、モデルはネストされた並列性を事前に取り除き、クエリごとのシングルスレッディングと外側の並行性を用いた再設計に切り替えました。

リコールが95パーセントの閾値を下回る反復に遭遇したとき、モデルは失敗を診断し、パラメータを調整し、必要な精度を取り戻すためのパラメータ補償を実装しました。このレベルの自律的な修正こそが、GLM-5.1を「ライブ環境でテストせずにただコードを生成する」モデルと切り分けています。

Kernelbench:機械学習のフロンティアを押し広げる

モデルの持久力は、MobileNet、VGG、MiniGPT、Mambaのような完全な機械学習アーキテクチャをエンドツーエンドで最適化することを要求するKernelBench Level 3でもさらに試されました。

この設定では、参照となるPyTorch実装よりも高速なGPUカーネルを生成しつつ、出力はまったく同一に維持することが目的です。50の各問題は、H100 GPUを1基搭載した隔離されたDockerコンテナで実行され、ツール使用のターン数は1,200に制限されています。正確性と性能は、別々のCUDAコンテキストにおいて、PyTorch eagerのベースラインと比較して評価されます。

結果は、GLM-5.1とその前身の間に大きな性能差があることを示しています。元のGLMは、改善が素早い一方で、2.6倍の速度向上で早期に頭打ちになりましたが、GLM-5.1は最適化の取り組みをはるかに長く継続しました。最終的に、50問にわたって幾何平均で3.6倍の速度向上を達成し、1,000回以上のツール使用ターンを超えても有用な進歩を継続しました。

この特定のベンチマークではClaude Opus 4.6が4.2倍で依然としてリーダーですが、GLM-5.1はオープンソース・モデルの生産的な到達範囲を確実に広げました。

この能力は、単にコンテキストウィンドウが長いだけの話ではありません。長時間の実行にわたって目標整合性を維持し、戦略の逸脱、誤りの蓄積、効果のない試行錯誤を減らす必要があります。重要なブレークスルーの1つは、自律的な実験を形成し、分析し、最適化ループを回せることです。これによりモデルは、ベンチマークを先回りして実行し、ボトルネックを特定し、戦略を調整し、反復的な洗練によって結果を継続的に改善できます。

このプロセスで生成されたすべての解は、ベンチマークの悪用(exploitation)について独立に監査されており、最適化が特定のベンチマークの振る舞いに依存していないこと、また計算をデフォルトのCUDAストリームに保ちながら任意の新しい入力に対して機能することが保証されています。

プロダクト戦略:サブスクリプションと補助金

GLM-5.1は、消費者向けのチャットボットというより、エンジニアリング品質のツールとして位置づけられています。これを支えるため、Z.aiはそれを包括的なCoding Planエコシステムに統合し、高度な開発者向けツールと直接競合することを狙っています。

提供内容は3つのサブスクリプション階層に分かれており、すべてに、視覚分析、Web検索、Webリーダー、ドキュメント読み取り向けの無料のModel Context Protocolツールが含まれます。

Liteプランは1四半期あたり27米ドルで、軽量なワークロード向けに設計されており、同等のClaude Proプランの使用量の3倍を提供します。Proプランは1四半期あたり81米ドルで、複雑なワークロード向けに設計されており、Liteプランの使用量の5倍と、実行速度の40〜60パーセント高速化を提供します。

Maxプランは1四半期あたり216米ドルで、大量の高い需要を持つ上級開発者を対象としており、ピーク時間帯における性能保証がなされています。

APIを直接 利用する場合、または OpenRouterRequesty のようなプラットフォーム経由で利用する場合、Z.aiはGLM-5.1を入力トークン100万あたり$1.40、出力トークン100万あたり$4.40で提供しています。さらに、キャッシュ割引も用意されており、入力トークン100万あたり$0.26です。

モデル

入力

出力

合計コスト

出典

Grok 4.1 Fast

$0.20

$0.50

$0.70

xAI

MiniMax M2.7

$0.30

$1.20

$1.50

MiniMax

Gemini 3 Flash

$0.50

$3.00

$3.50

Google

Kimi-K2.5

$0.60

$3.00

$3.60

Moonshot

MiMo-V2-Pro(≤256K)

$1.00

$3.00

$4.00

Xiaomi MiMo

GLM-5

$1.00

$3.20

$4.20

Z.ai

GLM-5-Turbo

$1.20

$4.00

$5.20

Z.ai

GLM-5.1

$1.40

$4.40

$5.80

Z.ai

Claude Haiku 4.5

$1.00

$5.00

$6.00

Anthropic

Qwen3-Max

$1.20

$6.00

$7.20

Alibaba Cloud

Gemini 3 Pro

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

OpenAI

GPT-5.4

$2.50

$15.00

$17.50

OpenAI

Claude Sonnet 4.5

$3.00

$15.00

$18.00

Anthropic

Claude Opus 4.6

$5.00

$25.00

$30.00

Anthropic

GPT-5.4 Pro

$30.00

$180.00

$210.00

OpenAI

注目すべき点として、このモデルはピーク時間帯に標準の3倍のレートでクォータを消費します。ピーク時間帯は毎日14:00〜18:00(北京時間)として定義されています。ただし、2026年4月までの期間限定プロモーションにより、オフピーク利用は標準1xレートで課金されます。フラッグシップを補完するのが、最近発表されたGLM-5 Turboです。

5.1がマラソンランナーだとすれば、Turboはスプリンターです。Turboは独自で最適化されており、高速推論やツール利用、永続的なオートメーションといったタスクに適しています。

入力100万あたり$1.20/出力100万あたり$4で、ベースのGLM-5よりは高価ですが、新しいGLM-5.1よりは手頃な価格で提供されており、高速かつ監督付きのエージェント実行にとって商業的に魅力的な選択肢として位置付けられています。

このモデルはローカル展開向けにもパッケージ化されており、vLLM、SGLang、xLLMを含む推論フレームワークに対応しています。包括的なデプロイ手順は公式のGitHubリポジトリで提供されており、開発者は自社のインフラ上で7540億パラメータのMoEモデルを実行できます。

エンタープライズチーム向けには、このモデルは高度な推論能力を備えており、APIリクエストのthinkingパラメータ経由で利用できます。これにより、最終回答を提示する前に、モデルがステップごとの内部推論プロセスを示せるようになります。

ベンチマーク:新しいグローバル標準

GLM-5.1の性能データは、コーディングおよびエンジニアリングタスクにおいて、いくつかの確立された欧米モデルを飛び越えたことを示唆しています。

SWE-Bench Pro(指示プロンプトと200,000トークンのコンテキストウィンドウを用いて、モデルが現実世界のGitHub課題を解決できるかを評価する)で、GLM-5.1は58.4のスコアを達成しました。 参考として、これはGPT-5.4の57.7、Claude Opus 4.6の57.3、Gemini 3.1 Proの54.2を上回っています.

標準化されたコーディングテストを超えて、このモデルは推論面やエージェント型ベンチマークでも大きな伸びを見せました。Terminus-2フレームワークで評価したTerminal-Bench 2.0では63.5を獲得し、Claude Codeハーネスと組み合わせると66.5に到達しました。

CyberGymでは、1回の実行で1,507タスクを処理することで68.7のスコアを達成し、従来のGLM-5モデルに対して約20ポイントのリードを示しました。このモデルは、MCP-Atlasのパブリックセットでも71.8のスコアを獲得し、T3-Benchでは70.6を達成しています。

推論領域ではHumanitys Last Examで31.0を獲得し、外部ツールの使用が許可されると52.3まで跳ね上がりました。AIME 2026の数学コンペティションベンチマークでは95.3に到達し、専門レベルの科学推論を評価するGPQA-Diamondでは86.2のスコアを記録しています。

最も印象的な逸話的ベンチマークは、Scenario 3テストです。8時間で、Linux風のデスクトップ環境をゼロから構築しました。

タスク完了だと宣言する前に、単純なタス クバーやプレースホルダーのウィンドウを出すような従来モデルとは異なり、GLM-5.1は自律的にファイルブラウザ、ターミナル、テキストエディタ、システムモニタ、さらに機能するゲームまでを埋め込みました。

視覚的に一貫した、機能するWebアプリケーションを提供できるまで、スタイリングや対話ロジックを反復的に磨き上げました。これは、モデルに時間と、自分の作業を継続的に洗練し続ける能力を与えたときに何が可能になるのかを、具体的に示す例です。

ライセンスとオープンな流れ

これら2つのモデルのライセンスは、現在のグローバルAI市場の状態について、より大きな物語を語っています。GLM-5.1はMITライセンスのもとでリリースされており、モデルの重みはHugging FaceおよびModelScopeで公開されています。

これは、開発者の信頼感とエコシステムの到達範囲を広げるために、オープンソースのリリースを活用するというZ.aiの歴史的な戦略に続くものです。とはいえ、GLM-5 Turboはプロプライエタリでクローズドソースのままです。これは、主要なAIラボの間で増えつつあるハイブリッド型への移行傾向を反映しています。すなわち、オープンソースモデルは広く配布するために使い、実行を最適化した派生版はペイウォールの内側に置く、という形です。

業界アナリストは、この変化が中国市場での再調整のさなかに到来していると指摘しています。中国でも、Alibabaのような大手が、自社のプロプライエタリな取り組みをオープンリリースと分離し始めています。

Z.aiのCEOであるZhang Peng氏は、フラッグシップの中核となる知能はコミュニティに公開しつつ、高速な実行インフラは収益を生む資産として維持することで、この点をうまく取り扱っているように見えます。

同社はGLM-5 Turbo自体を明確にオープンソース化すると約束しているわけではありませんが、その調査結果は今後のオープンリリースに反映されると言っています。この分割した戦略によって、同社は最も商業的に関連性の高い領域で持続可能なビジネスモデルを構築しながら、導入を後押しできます。

コミュニティとユーザーの反応:1週間分の作業を粉砕

GLM-5.1リリースに対する開発者コミュニティの反応は、圧倒的に、本モデルの生産環境での信頼性に集中していました。

ユーザーレビューからは、本モデルの自律性に対する高い信頼度がうかがえます。

ある開発者は、GLM-5.1が自分を驚かせたとして、その出来が非常に良いと述べています。必要なプロンプトの作り直しが少ない他のモデルよりも、より確実に自分の望むことを実行しているようだ、ということでした。別の開発者は、計画からプロジェクトの実行までの本モデル全体のワークフローが非常に優れており、複雑なタスクを自信を持って任せられると語りました。

ユーザーによる具体的な事例では、大幅な効率向上が強調されています。

Crypto Economy Newsのユーザーは、前処理コード、特徴選択ロジック、ハイパーパラメータ調整の解決策を扱うタスクが、当初は1週間かかるはずだったのに、わずか2日で完了したと報告しました。GLM Coding planを手に入れてから、他の開発者は、リソース不足が進捗の妨げになってしまうことを気にせずに済み、より自由に動いてコア開発に集中できるようになったと述べています。

SNS上では、ローンチの発表が初動1時間で46,000回以上の閲覧を生み出し、8時間に及ぶ自律的な主張にユーザーは魅了されました。初期の導入者の間では、Z.aiは幻覚が多いAIの時代をうまく越え、モデルが反復を通じて自己最適化できると信頼できる時期に入った、という見方が広がっています。

正しいプロンプトと構造化された計画によって4つのアプリケーションを迅速に構築できる能力は、複数のユーザーによって、個人開発者にとってゲームチェンジャーとなる開発だと挙げられています。

長期視野の取り組みがもたらす示唆

GLM-5.1のリリースは、AI競争の次のフロンティアが、秒あたりのトークン数で測られるのではなく、自律の継続時間で測られるようになることを示唆しています。

モデルが人の介入なしに8時間働けるのであれば、それはソフトウェア開発ライフサイクルを根本的に変えてしまいます。

ただしZ.aiは、これは始まりに過ぎないことを認めています。最適化するための数値指標が存在しないタスクにおいて、信頼できる自己評価を開発するなど、依然として大きな課題が残っています。

インクリメンタルな調整が効かなくなった時点で、より早い段階でローカル最適から脱出することも別の大きなハードルであり、さらに数千回に及ぶツール呼び出しにまたがる実行トレースの一貫性を維持することも課題です。

ひとまずZ.aiは砂地に目印を残しました。GLM-5.1によって、彼らは「質問に答える」だけでなく「プロジェクトを完了する」モデルを提供しました。モデルはすでに、Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droidを含む幅広い開発者向けツールと互換性があります。

開発者や企業にとって、もはや問いは「このAIに何を聞けるか?」ではなく、「このAIに次の8時間、何を任せられるか?」です。

業界の焦点が、監督をより少なくしても確実に多段階の作業を実行できるシステムへと明確に移りつつあることは間違いありません。このエージェント型エンジニアリングへの移行は、世界経済の中で人工知能を展開する新たな段階を切り開くものです。