オープンソースのXiaomi MiMo-V2.5/V2.5-Proは、エージェント型「クロー」課題で最も効率的(しかも手頃)

VentureBeat / 2026/4/28

📰 ニュースSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • Xiaomiは、MITライセンスのもとでオープンソースLLM「MiMo-V2.5」と「MiMo-V2.5-Pro」を公開し、Hugging Face経由で商用向けの本番利用やカスタマイズを可能にした。
  • Xiaomiのベンチマークでは、これらのモデルはエージェント型の「クロー」タスクにおいて最も効率的な部類に入るとされており、サードパーティのメッセージング経由でエージェントに代行実行させる運用が想定されている。
  • MiMo-V2.5-Proはオープンソース分野で63.8%の成功率をリードし、1トラジェクトリあたり約70Kトークンで動作するため、主要なクローズドモデルに比べてトークン消費を大きく抑えられるという。
  • 310Bパラメータ構成に加え、効率的な「active」フットプリントとネイティブの100万トークン文脈ウィンドウを備えることで、Xiaomiはエンタープライズのエージェント導入でクローズドの最先端モデルに対抗できるコスト面・性能面の選択肢になり得ると打ち出している。

スマートフォンや電気自動車で最もよく知られる中国企業Xiaomiは、近ごろ非常に手頃な価格でありながら高性能なオープンソースのAI大規模言語モデルを出荷している。

この流れは本日、Xiaomi MiMo-V2.5 と Xiaomi MiMo-V2.5-Proのリリースによって続いた。両モデルはいずれも寛容で、企業でも扱いやすいMITライセンスのもとで提供されており、市販の商用アプリケーションにおいて本番利用に適している。企業や個人/独立系の開発者は、どちらかのモデル(そして他にもXiaomiのオープンソース選択肢)をHugging Faceから直接ダウンロードし、必要に応じて改変して、自分の判断でローカル環境または仮想プライベートクラウド上で実行できるようになった。

これらのモデルがオープンソースのライセンス以外で特筆すべき点は、Xiaomiが公開したベンチマークによれば、エージェント型の「claw(爪)」タスク向けに利用可能な中で最も効率的な部類に入ることだ。つまり、OpenClaw、NanoClaw、Hermes Agentのようなシステムの中で動力となり、ユーザーがサードパーティのメッセージングアプリ経由でそれらと直接やり取りし、エージェントに自律的に出動して人間の代わりにタスクを完了させる。たとえば、マーケティングコンテンツの作成と公開、アカウント運用、メールの整理、スケジューリングなどである。

Xiaomiの ClawEval ベンチマークのチャートが示すとおり、MiMo-V2.5 と特にPro版はいずれもチャート左上付近に位置しており、最も少ないトークン数でベンチマーク対象のclawタスクを完了する高い性能がうかがえる。これは、人間のユーザーのコストを節約する。なぜなら、Microsoftの GitHub Copilot のように、使用量ベース課金へと移行するサービスが増える世界では、Anthropicのようにレート制限を設けたりOpenAIのように「食べ放題」形式のサブスクリプションを提供したりするのではなく、使われたトークンごとにエージェントの背後にいる人間に課金するからだ。

実際、Proモデルは成功率63.8%でオープンソース領域をリードしており、1トラジェクトリあたり消費するのは約70Kトークンだけだ。

これはAnthropic Claude Opus 4.6、Google Gemini 3.1 Pro、OpenAI GPT-5.4で同等の結果を得るのに必要なトークン数と比べると、おおむね40〜60%少ない

310Bパラメータの大規模なアーキテクチャに加えて、高効率な「アクティブ」フットプリントと、ネイティブの100万トークン文脈ウィンドウを組み合わせることで、Xiaomi MiMoは、特にOpenClawのようなエージェント型タスクや「claws」に関して、GoogleやOpenAIによるクローズドソースのフロンティアモデルの優位を揺さぶりにかかっている。企業向けAI導入における最新かつ最大級の流行がここにあるのだ。

二段構えの鉗子

Xiaomiは、開発スペクトラムの異なる目的に応えるため、モデルを2種類の異なるバージョンとしてリリースした。MiMo-V2.5(「Omni」マルチモーダルの専門家)とMiMo-V2.5-Pro(「Agent」専門家)である。

ベースモデルがネイティブなマルチモーダリティを提供する一方で、MiMo-V2.5-Proは特に「長期ホライズンの一貫性(long-horizon coherence)」と複雑なソフトウェアエンジニアリングのために設計されている。

GDPVal-AA(Elo)ベンチマークでは、Proモデルは1581というスコアを達成し、Kimi K2.6やGLM 5.1のような競合を上回った。

Xiaomiの研究者はさらに、V2.5-Proが自律的に実行したいくつかの高複雑度タスクに関するデータも公開した:

  • RustにおけるSysYコンパイラ:このモデルは、レキサ、パーサ、RISC-Vアセンブリのバックエンドを含む完全なコンパイラをゼロから実装した。4.3時間で完成している。672のツールコールに及びながら、隠しテストスイートで233/233の満点スコアを達成した。これは通常、計算機科学を専攻する学生が数週間かけて行うような作業だ。

  • 高機能ビデオエディタ:モデルは11.5時間超および1,868のツールコールを用いて、マルチトラックのタイムラインとエクスポート用パイプラインを備えた8,192行のデスクトップアプリケーションを生成した。

  • アナログEDA最適化:学部レベルを超える工学タスクとして、モデルはTSMC 180nmプロセス上でFlipped-Voltage-Follower(FVF-LDO)レギュレータを最適化した。ngspiceシミュレーションのループを繰り返すことで、最初の試行に比べて線形レギュレーションのような指標が22倍に改善された。

これらの実験は、V2.5-Proにおける「ハーネスの意識(harness awareness)」を示している。つまり、モデルが自分自身のメモリを能動的に管理し、数千に及ぶ連続したツールコールにわたって一貫性を維持するようにコンテキストを形作っている。

API経由では、Xiaomiは国内(中国)市場と国際市場(米国など)向けの両方で競争力のある価格設定を行っている。海外の開発者向けに、高性能なMiMo-V2.5-Proは、入力がキャッシュミスとなった場合の1百万入力トークンあたり$1.00、文脈ウィンドウが最大256Kまでの範囲での出力あたり$3.00となっている。

256K〜1Mトークンの超長文脈タスクでは、コストは入力が$2.00、出力が$6.00へと倍増する。ただし、アーキテクチャに備わったキャッシュ機能により大幅な救済があり、キャッシュヒット時には入力コストを1百万トークンあたり$0.20〜$0.40程度まで引き下げられる。

国内では、これらのレートは人民元でも同様に反映されている。Proモデルは標準の文脈で1百万入力トークンあたり¥7.00から始まり、拡張された1Mレンジでは¥14.00まで上がる。一方、ベースモデルは海外の入力が1百万トークンあたりわずか$0.40で、出力は1百万トークンあたり$2.00。これは、世界の主要LLMの中でも比較的手頃な価格帯の3分の1の水準に位置する(下のチャート参照):

Model

Input

Output

Total Cost

Source

Grok 4.1 Fast

$0.20

$0.50

$0.70

xAI

MiniMax M2.7

$0.30

$1.20

$1.50

MiniMax

MiMo-V2.5 Flash

$0.10

$0.30

$0.40

Xiaomi MiMo

Gemini 3 Flash

$0.50

$3.00

$3.50

Google

Kimi-K2.5

$0.60

$3.00

$3.60

Moonshot

MiMo-V2.5

$0.40

$2.00

$2.40

Xiaomi MiMo

MiMo-V2-Pro(≤256K)

$1.00

$3.00

$4.00

Xiaomi MiMo

GLM-5

$1.00

$3.20

$4.20

Z.ai

GLM-5-Turbo

$1.20

$4.00

$5.20

Z.ai

DeepSeek V4 Pro

$1.74

$3.48

$5.22

DeepSeek

GLM-5.1

$1.40

$4.40

$5.80

Z.ai

Claude Haiku 4.5

$1.00

$5.00

$6.00

Anthropic

Qwen3-Max

$1.20

$6.00

$7.20

Alibaba Cloud

Gemini 3 Pro

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

OpenAI

GPT-5.4

$2.50

$15.00

$17.50

OpenAI

Claude Sonnet 4.5

$3.00

$15.00

$18.00

Anthropic

Claude Opus 4.7

$5.00

$25.00

$30.00

Anthropic

GPT-5.5

$5.00

$30.00

$35.00

OpenAI

GPT-5.4 Pro

$30.00

$180.00

$210.00

OpenAI

エージェント開発のハードルをさらに下げるために、Xiaomiはキャッシュ書き込みを無料にする取り組みを、すべてのモデルで期間限定で実施しています。さらにMiMo-V2.5-TTSスイート全体に対しても、合計の料金免除を提供しています。このスイートには、専用のボイスクローン機能とデザイン機能が含まれます。

この価格ロジックは、シンプルなチャットアプリケーションから、永続的で長期的な目標を扱えるエージェントへと移行を加速させ、従来の最先端フロンティアモデルと比べてコストを大幅に抑えられるように設計されていることが明確です。

Xiaomiは、サブスクリプション提供の刷新版も導入しました。名称は "Token Plan," で、現在4つのレベルで提供されています:

  • Liteの"Starter Pack"は、年間$63.36 USDで7億2000万クレジットを提供

  • Standardは、年間$168.96で24億クレジットを提供

  • Proは、年間$528.00で84億クレジットを提供(エンタープライズのユースケース向けに設計)

  • Max—高強度のコーディング愛好家を対象—は、年間$1,056.00で192億クレジットを提供

クレジット配分に加えて、すべてのプランには優遇APIレート、オフピーク呼び出しに対する20%割引、Cursor、Zed、Claude Codeのような人気のコーディング用スキャフォールドに対する"Day-0"サポートが含まれます。

ただし、API経由でもToken Plan経由でも、中国からXiaomiのモデルにアクセスする場合、米国拠点のエンタープライズ顧客に対して障壁や追加のコンプライアンス/規制上のリスクが生じる可能性があります。そのため、中国の技術への依存を懸念しつつも低コストでオープンソースのモデルを活用したい米国の企業にとって最善の手は、自社の仮想プライベートクラウド(VPC)またはローカルサーバーを構築し、モデルの重みをダウンロードして、国内でモデルを実行することになるでしょう。

MoEアーキテクチャだが、V2.5とV2.5-Proでは学習レジメンが分岐

MiMo-V2.5の中核にはスパース・ミクスチャ・オブ・エキスパーツ(MoE)アーキテクチャがあります。モデル全体としては3,100億(=310 billion)パラメータを備えていますが、推論の任意の1サイクルで"アクティブ"になるのは150億(=15 billion)だけです。

一方で、V2.5-Proは、420億(=420 billion)パラメータのミクスチャ・オブ・エキスパーツ(MoE)モデルで、アクティブパラメータは420億(=42 billion)です。

どちらの場合も設計は、専門性の高い研究病院のように機能します。つまり、病院には何百人もの医師(パラメータ)がいるものの、特定の症例(クエリ)に必要な専門家だけが部屋に呼び出される、という考え方です。

Pro版では、パラメータ量が大幅に増えることで、複雑なソフトウェアエンジニアリングや長期的なタスクに見られる深い多段階の推論に必要な"ニューラル・キャパシティ"が提供されます。まるで、より大きな病院にさらに多くの専門家がいるかのようです。

Xiaomiのブログ記事によれば、通常のV2.5は厳格な5段階の進化をたどります:

  1. テキストの事前学習(Text Pre-training):48兆トークンにも及ぶ巨大な言語バックボーンを構築。

  2. プロジェクタのウォームアップ(Projector Warmup):社内の音声・視覚エンコーダを言語コアに整合させる。

  3. マルチモーダルの事前学習(Multimodal Pre-training):高品質なクロスモーダルデータに向けてスケールさせる。

  4. エージェント的な事後学習(Agentic Post-training):コンテキストウィンドウを32Kから1Mトークンへ段階的に拡張。

  5. RLとMOPD:強化学習(Reinforcement Learning)およびマルチモーダル嗜好最適化(Multimodal Preference Optimization:MOPD)を用いて、現実世界での推論と知覚を研ぎ澄ます。

バックボーンは、MiMo-V2-Flashから継承したハイブリッドスライディングウィンドウ型アテンション・アーキテクチャを利用し、モデルが長距離の情報を"記憶"する方法を最適化します。この技術的基盤により、MiMo-V2.5は視覚や聴覚の処理のために外部の"プラグイン"ツールに頼るのではなく、自律的に見て、聞いて、ネイティブに推論できます。

それとは対照的に、MiMo-V2.5-Proの学習は、感覚知覚よりも"アクション空間"を優先します。感覚の整合よりも、Proモデルの学習の焦点は、事後学習における計算リソースを拡張することに移されます。

このプロセスは、"ハーネス・アウェアネス(harness awareness)"、つまりClaude CodeやOpenCodeのような自律エージェントのスキャフォールド内で、モデル自身のメモリとコンテキストを管理できるように、モデルを特別に学習させることを目的としています。

基礎となるV2.5モデルがモダリティをまたいで推論するように訓練されているのに対し、Pro版は1,000を超える連続したツール呼び出しにまたがっても一貫性を維持するように訓練されています。

標準のV2.5モデルは、局所的なアテンションと全体的なアテンションのバランスを取り、マルチモーダル知覚を維持します。一方、Proモデルは、ハイブリッド・アテンション比率を増やしており、従来世代の5:1から、より攻めた7:1へと進化しています。

これによりProモデルは、自身のコンテキストの大半を"ざっと流し読み"しつつ、現在の目的に最も関連するデータの15%に対して高密度のアテンションを適用できます。これは、大規模リポジトリのデバッグや大学院レベルの回路の最適化における重要な特徴です。

最後に、両モデルとも強化学習(RL)およびマルチモーダル嗜好最適化(MOPD)を受けますが、これらの段階の目的は異なります。

MiMo-V2.5では、RL段階を知覚とマルチモーダル推論を研ぎ澄ますために用います。MiMo-V2.5-Proでは、RLはエージェント的なシナリオ内での指示追従に重点を置き、超長いコンテキストの深部に埋め込まれた微妙な要件にモデルが確実に従えること、また自律実行中のエラーからうまく復旧できることを担保します。

その結果、Proモデルには"自己修正"の規律が生まれています。4.3時間のSysYコンパイラのビルド中に、退行(回帰)を診断して修正できることからもそれが見て取れます。

完全なMITライセンスはエンタープライズのユースケースに最適

制限付きの"Acceptable Use(許容される利用)"ポリシーを含む多くの"オープン"モデルとは一線を画す動きとして、XiaomiはMiMo-V2.5をMIT Licenseのもとでリリースしました。MITライセンスは、許容性の高いソフトウェアライセンスのゴールドスタンダードです。開発者や企業にとって、これはつまり次のことを意味します:

  • 認可は不要:企業は、Xiaomiから明示的な許可を得ることなく商用でモデルを展開できます。

  • 継続的な学習:開発者は、自社の専有データでモデルをファインチューニングすることに自由で、さらにその派生した重みをリリースすることさえできます。

  • 制限のない商用利用:"コミュニティ"ライセンスにありがちな、収益上限やユーザーベースの制限がありません。

「オープンウェイト」のカスタムライセンスではなくMITを選ぶことで、XiaomiはMiMoを次世代のAIエージェントのための基盤インフラとして位置づけ、グローバルな開発者コミュニティに対して、モデルをパブリックユーティリティ(公共のサービス)として扱うよう実質的に呼びかけています。

Xiaomiの背景:スマホとEVから、中国の“オープンソースAIの寵児”へ

XiaomiのフロンティアAIエージェントへの転換は、世界でも最も高密度なハードウェア・ソフトウェア・フライホイールを構築してきた10年の積み重ねの、論理的な到達点です。

同社は2010年に スマートフォンのディスラプターとして設立されました。北京拠点の企業は、「Human x Car x Home」という戦略により定義される、垂直統合型の強大な体制への高い賭けを伴う移行を実行してきました。このエコシステムは現在、HyperOSアーキテクチャのもとで統一された、接続可能なスマートデバイスが8億2300万台超を含みます。

SU7による2024年の自動車セクター参入、そしてその後の高性能SUVであるYU7は、この統合の概念実証として機能し、Xiaomiを世界のラグジュアリーブランドに対する直接の競争相手として位置づけました。

チップとOSのための基盤研究開発に2000億人民元(290億ドル)を投資したことで、Xiaomiは家電の組み立てを超え、エージェントの「アクションスペース(行動空間)」の設計者へと踏み出しました。巨大なハードウェア基盤を、MiMo-V2.5シリーズに見いだされるエージェント型インテリジェンスの主要なテストフィールドとして活用しているのです。

エコシステムのサポート

このリリースは、より広範なAIエコシステムから即座に「Day-0(初日から)」のサポートを受けました。MiMoチームは、打ち上げ(ローンチ)時点でSGLangvLLM(高スループットの推論エンジンとして最も人気の2つ)がV2.5シリーズをサポートすると発表しました。

これはAWS、AMD、T-HEAD、Enflameとのハードウェア提携によって可能になり、クラウド上のH100から国内の中国製アクセラレータまで、あらゆる環境でモデルを効率的に動作させられるようにしています。

Xiaomi MiMoのプロジェクトリードであり、かつてDeepSeekチームの重要メンバーだったFuli Luoは、X(旧Twitter)上でリリースの理念として次のように強調しました:

「モデルの価値は順位だけで測られるものではありません。解決できる問題の数で測られるのです。今こそMiMoで一緒に作りましょう!」

この構築フェーズに向けて、Luoは1兆(100T)トークンの無料付与をビルダーやクリエイターに対して行うと発表しました。この大規模なインセンティブは、即座に金銭的リスクを負うことなく、1M(100万)コンテキストウィンドウを試したい開発者の参入障壁を下げることを目的としています。

経済構造の再編:オープンソース vs. 従量課金のプロプライエタリ

今回のローンチは、AIの経済性にとって重要な局面に到来しています。利用量ベースの課金への移行は、AIサービスの「食べ放題」時代に決定的な終止符を打つものです。この流れは、GitHubが本日発表した、AIコーディング支援ツールGitHub Copilotが、すべてのプランを従量課金・トークンベースのクレジットへ移行するというニュースによって裏づけられています。

席(シート)数ベースの予測可能性が消費主導のコストへと置き換わる中で、1回の推論セッションで数百万トークンを消費し得るプレミアムなエージェント型ワークフローは、企業が予算化しづらくなってきています。

ユーザーの受け止めは、予想通り皮肉っぽく変化しており、サブスクリプションが有限の割り当てに変わるのに「もっと少なくなるのに、同じ値段を払うことになる」と開発者たちが嘆いています。この価格体系の進化は、MiMoシリーズの戦略的な魅力を大きく高めます。許容的なMITライセンスのもとで公開することで、Xiaomiは組織が増え続ける「SaaS税」を回避し、プライベート導入によって財務の予測可能性を取り戻せるようにします。

重要なのは、XiaomiがAPIにおける「コンテキスト税」をなくしたことです。1,000,000トークンのコンテキストウィンドウは標準レートで課金されます――V2.5では1トークン=1クレジット、Pro版では2クレジットで、追加の倍率はありません。これは、業界全体でセッションベースの上限に向かっている動きと対照的であり、MiMoを、コストに敏感で高ボリュームの開発を行うための避難先として位置づけています。

企業向けの分析

MiMo-V2.5のローンチは、単なる「重量(負担)の軽減」以上の意味を持ちます。それはオープンソース・コミュニティに対する独立宣言です。

Xiaomiは、多モーダルのエージェント型作業でClaude Sonnet 4.6に匹敵し、動画理解ではGemini 3 Proに匹敵することで、「クローズドな実験室」と「オープンな研究」の間のギャップが、実質的に埋められたことを証明しました。

触媒としてMITライセンスがあり、燃料として100Tトークンの付与がある今後数か月は、MiMoのバックボーンを土台にした専門的でエージェント型のアプリケーションが急増する可能性が高いでしょう。

プロジェクトの野心的な軌道を裏づける形で、チームはすでに次世代を学習しており、「より深い推論」や「より豊かな現実世界での根拠づけ」に注力していると述べています。現時点では、MiMo-V2.5は、機能的なAGIへ向かうレースにおいて、スパース(疎)アーキテクチャの力と許容的なライセンスが持つ意義を示す証明として立っています。