新しい MiniMax M2.7 の専有AIモデルは『自己進化型』で、強化学習研究ワークフローの30〜50%を実行できる

VentureBeat / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • MiniMaxはM2.7を公開しました。これはAIエージェントを動かすための専有LLMであり、Claude Code、Kilo Code、OpenClawなどのツールのバックエンドとして機能するよう設計され、推論のみを行うモデルとして競争力のある性能と高いコスト効率を謳っています。
  • このモデルはログの読み取り、デバッグ、指標分析を自律的に起動でき、自身の開発ワークフローの30〜50%を自ら処理することが可能で、再帰的自己改善へ向かう動きを示しています。
  • 発表は、中国のAI産業がオープンソース志向から専有の最前線モデルへとシフトしていることを強調しており、他社がクローズドモデルへ移行する動きと一致しています。
  • M2.7は Z.ai の GLM-5 Turbo に続く、最近数ヶ月で専有の最先端LLMを発表した中国系スタートアップの2例目であり、アリババの Qwen チームも専有開発へ向かっているといううわさがある。

この数年の間、中国のAIスタートアップである MiniMax は、混雑したグローバルAI市場の中で最もエキサイティングな企業の1つとなり、オープンソースライセンスを持つ最先端の大規模言語モデル(LLMs)を提供することで評判を築き、そしてその前には高品質なAIビデオ生成モデル(Hailuo)を提供してきました。

本日公開された MiniMax M2.7 — AIエージェントを動かす性能を発揮し、サードパーティのハーネスや Claude Code、Kilo Code、OpenClaw などのツールのバックエンドとして機能する新しい専有LLM — は、さらなるマイルストーンを示しています:人間主導のファインチューニングだけに頼るのではなく、MiniMax は M2.7 を活用して自前の強化学習ハーネスを構築・監視・最適化しました。

自己改善の再帰的な方向性へのこの動きは、業界の転換を示しています:私たちが使うモデルが人間の研究の産物であるだけでなく、彼らの進歩の設計者でもある未来です。このモデルは、他の主要なシステムと同等の知性を提供しつつ、はるかに高いコスト効率を維持する、推論専用のテキストモデルとして分類されています。

しかし、現時点で M2.7 が専有モデルであることは、中国のAIスタートアップが—過去1年の大半—オープンソースAIフロンティアの世界をリードする旗手として知られてきたことを示すサインであり、低コスト(またはゼロコスト)とカスタマイズ性の高さから世界中の企業に魅力的である彼らが、戦略を転換し、OpenAI、Google、Anthropic のような米国のリーダーたちが長年実践してきたような、より専有的なフロンティアモデルを追求している、というサインです。

MiniMax は、直近数か月の間に専有の最先端LLMをリリースした中国系スタートアップの2社目となる z.ai の GLM-5 Turbo に続く、そして Alibaba の Qwen チームも上級幹部と他の研究者の離脱を受けて専有開発へ移行しているとのうわさがある。

技術的成果:自己進化ループ

MiniMax M2.7 の特徴は、それ自身の創出における役割です。 公式資料によると、このモデルの初期バージョンは、データパイプライン、訓練環境、評価インフラストラクチャを管理する研究エージェントハーネスを構築するために使用されていました。

ログ読み取り、デバッグ、指標分析を自律的に起動することによって、 M2.7 は自分自身の開発ワークフローの 30%〜50%を処理 しました。

これは単なる定型作業の自動化ではなく、失敗軌道を分析し、100回以上の反復ループでコードの修正を計画することによって、モデルは自らのプログラミング性能を最適化しました。

「私たちは意図的に、モデルが計画能力とユーザーとの要件の明確化能力を高めるよう訓練しました」と、MiniMax のエンジニアリング責任者 Skyler Miao X 上の投稿で。「次のステップは、これをさらに推し進めるためのより複雑なユーザーシミュレータです。」

この能力は、機械学習の自律研究スキルを検証する一連の競技会である MLE Bench Lite を通じて、複雑な環境へと拡張されます。

これらの試験で、M2.7 は 66.6% のメダル獲得率を達成し、Google の新しい Gemini 3.1 に匹敵する性能水準であり、Anthropic の Claude Opus 4.6 が設定した最新のベンチマーク水準に近づいています。

目標は、モデル訓練と推論アーキテクチャを人間の関与なしで完全自律化へと移行させることだと MiniMax は述べています。

性能の進化:MiniMax m2.7 対 m2.5

前任機である M2.5 は 2026年2月にリリースされ、M2.7 モデルは高リスクのソフトウェア工学とプロフェッショナルオフィス作業で顕著な向上を示しています。

M2.5 が多言語コードの熟達で称賛された一方、M2.7 は実運用のエンジニアリングを想定して設計されています—生産システム内で因果推論を要するタスク。

主要なパフォーマンス指標には、

  • ソフトウェア工学: M2.7 は SWE-Pro ベンチマークで 56.22%を獲得し、GPT-5.3-Codex のような世界的競合他社の最高水準と同等です。

  • プロフェッショナルオフィス対応: 文書処理において、M2.7 は GDPval-AA で Elo スコア 1495 を達成しており、同社はこれがオープンソースアクセス可能なモデルの中で最高であると主張しています。

  • 幻覚の抑制: AA-Omniscience Index で+1のスコアを獲得し、M2.5 の-40 からの大幅な飛躍です。

  • 幻覚発生率: M2.7 は 34% の幻覚発生率を達成しており、Claude Sonnet 4.6 の 46%、Gemini 3.1 Pro Preview の 50%より低いです。

  • システム理解: Terminal Bench 2 で 57.0%を取得し、単純なコード生成ではなく複雑な運用ロジックを深く理解していることを示しています。

  • スキル遵守: MM Claw 評価では、各 2,000 トークンを超える 40 の複雑なスキルをテストしますが、M2.7 は 97%の遵守率を維持し、M2.5 のベースラインより大幅に改善しています。

  • 知能の同等性: モデルの推論能力は GLM-5 と同等と見なされますが、同様の結果を得るために出力トークンを20%少なく抑えます。

モデルの進化は、Artificial Analysis Intelligence Index でのスコア50 でさらに裏付けられており、わずか1か月で predecessor より8ポイント向上し、さまざまな領域のベンチマークタスク全体で世界全体の8位に位置づけられています。

すべての独立系の第三者ベンチマークが M2.7 の M2.5 に対する改善を示しているわけではない。BridgeMind が設計したタスク群である BridgeBench では、モデルのパフォーマンスを検証するための“雰囲気コード化”(vibe coding)— 自然言語を動くコードに変換する能力 — を評価します。M2.5 は 12位、M2.7 は 19位を獲得しました。

アクセス、価格設定、統合

MiniMax M2.7 は MiniMax API および MiniMax Agent 作成プラットフォームを通じて入手可能な専有モデルです。M2.7 のコアモデル重みは現在もクローズドのままですが、同社はオープンソースの対話型プロジェクト OpenRoom を通じてエコシステムに貢献し続けています。

直接API統合およびサードパーティプロバイダー OpenRouter 経由の場合、MiniMax M2.7 は 100万入力トークンあたり 0.30 ドル、100万出力トークンあたり 1.20 ドルというコスト優位の価格設定を維持しており、M2.5 の価格設定と変更はありません。

さまざまな利用規模とモダリティをサポートするため、MiniMax は複数のサブスクリプション階層を持つ構造化された Token Plan を提供します。これらのプランは、テキスト、音声、ビデオ、画像、音楽のモデルに対して、1 つの統一クォータの下でアクセスを可能にします。

さらなる普及を促進するため、MiniMax は Invite and Earn の紹介システムを開始し、新規招待者には10%の割引、招待者には10%のリベートクーポンを提供します。

月額標準 Token Plan 価格: 標準の月額階層は、初心者の開発者からヘビーユーザーまでを想定して設計されています。

  • Starter: 月額 10 ドル、5時間あたり 1,500 リクエスト。

  • Plus: 月額 20 ドル、5時間あたり 4,500 リクエスト。

  • Max: 月額 50 ドル、5時間あたり 15,000 リクエスト。

月額高速 Token Plan 価格: M2.7-highspeed バリアントを必要とする本番運用規模のワークロード向けに、以下の階層が用意されています:

  • Plus-Highspeed: 月額 40 ドル、5時間あたり 4,500 リクエスト。

  • Max-Highspeed: 月額 80 ドル、5時間あたり 15,000 リクエスト。

  • Ultra-High-Speed: 月額 150 ドル、5時間あたり 30,000 リクエスト。

年間 Token Plan 価格: 長期契約には大幅な割引が提供されます:

  • Standard Starter: 年額 100 ドル(20ドル節約)

  • Standard Plus: 年額 200 ドル(40ドル節約)

  • Standard Max: 年額 500 ドル(100ドル節約)

  • High-Speed Plus: 年額 400 ドル(80ドル節約)

  • High-Speed Max: 年額 800 ドル(160ドル節約)

  • High-Speed Ultra: 年額 1,500 ドル(300ドル節約)

これらのプランの1リクエストは、おおよそ MiniMax M2.7 への1回の呼び出しに相当しますが、ビデオや高精細音声などの同パッケージ内の他のモデルは、より高いレートでリクエストを消費します。

公式ツール統合

導入を円滑にするために、MiniMax は M2.7 を 11 以上の主要デベロッパーツールとエージェントハーネスに統合する公式ドキュメント を提供しています。

これには Claude Code、Cursor、Trae、Zed など、広く使用されているプラットフォームが含まれます。公式にサポートされている他のツールには OpenCode、Kilo Code、Cline、Roo Code、Droid、Grok CLI、Codex CLI があります。

さらに、モデルはモデル・コンテキスト・プロトコルをサポートしており、Web Search や Understand Image のようなツールをネイティブに使用してマルチモーダル推論を行うことができます。Anthropic SDK を使用する開発者は、ANTHROPIC_BASE_URL を MiniMax のエンドポイントを指すように変更するだけで、M2.7 を容易に統合できます。

OpenClaw のようなツールで MiniMax をプロバイダーとして使用する場合、画像理解機能はモデルの VLM API エンドポイントを介して自動的に設定され、ユーザーによる追加の設定は必要ありません。

豊富な統合の布陣と再帰的自己進化への先駆的なアプローチを備えた MiniMax M2.7 は、モデルが自らの進歩に人間が導くのと同じくらい関与するAIネイティブな未来へ向けた、重要な一歩を示しています。

企業の意思決定者にとっての戦略的示唆

技術的意思決定者は、M2.7 のリリースを、エージェント型AIが理論的なプロトタイピングから実運用に耐える実用性へと移行したという証拠と解釈すべきです。

モニタリング指標とコードリポジトリを自動的に関連づけることで、ライブ生産インシデントの回復時間を3分未満に削減する能力は、SREおよびDevOpsチームに対してパラダイムシフトを示唆します。

現在、AI 主導の効率化を採用する圧力に直面している企業は、AIを高度なアシスタントとして満足するのか、それともエンドツーエンドの完全なプロジェクト配信が可能なネイティブなエージェントチームを統合する準備ができているのかを決定しなければなりません。

財務的観点から見ると、M2.7は高度な推論のコスト効率性の点で大きなブレークスルーを示します。分析によれば、同等の知能レベルで実行するコストは GLM-5 の約3分の1未満です。

例えば、標準的なインテリジェンス指数を実行するコストは、M2.7 では 176 ドル、GLM-5 では 547 ドル、Kimi K2.5 では 371 ドルです。この積極的な価格戦略は、知能対コストのチャートのパレート前線に M2.7 を置き、企業レベルの推論を市場価格のごく一部で提供します。

現市場は高性能モデルで飽和しており、その多くは一般的な推論スコアで依然としてわずかな優位を保っています。しかし、Excel、PowerPoint、Word での Office Suite の忠実度を最適化した M2.7 の特定の最適化と GDPval-AA ベンチマークでの高いパフォーマンスは、専門的な文書ワークフローや財務モデリングに焦点を当てる組織にとって第一候補となります。

意思決定者は、一般目的のフロンティアモデルの利点と、複雑な内部構造やツールセットと対話するように設計された M2.7 のような専門エンジンとの比較検討を行うべきです。

最終的に、それが中国企業(上海に本拠を置く)によって提供されており、利用者の国だけでなくその国の法令の対象となり、オフラインまたはローカルでの使用はまだ利用できないという事実は、米国や西欧で事業を展開する企業、特に高度に規制された業界や政府と向き合う業界にとっては導入を難しくする可能性があります。

それにもかかわらず、自己進化するモデルへの移行は、AI投資のROIがますますシステム自体の再帰的な利益に結びつくことを示唆しています。

自らのハーネスを改善できるモデルを採用する組織は、静的で人間のみの洗練に頼る組織よりも、より高速な反復曲線を辿ることになるかもしれません。現代の開発者スタックへの MiniMax の積極的な統合により、これらの自律的ワークフローをテストする障壁は大幅に低下し、競合他社に対して同様のネイティブエージェント機能を提供する圧力を生み出します。