Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

VentureBeat / 2026/4/15

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Microsoftは、主要なMAIテキストから画像へのモデルの、低コストかつ高速度なバリアントである「MAI-Image-2-Efficient」を発表し、ほぼ半額で制作に投入できる品質だと主張しています。
このモデルの価格は、テキスト入力トークン1Mあたり5ドル、画像出力トークン1Mあたり19.50ドルです（MAI-Image-2に対して約41%の削減）。またMicrosoftは、NVIDIA H100ハードウェア上でGPUスループット効率が4倍で、実行速度が22%速いと述べています。
Microsoftは、ベンチマークにおいて（Gemini 3.1 Flash/ImageやGemini 3 Pro Imageなどの）指名されたハイパースケーラー競合よりも、平均40%優れたp50レイテンシー性能を報告しています。
MAI-Image-2-Efficientは、待ちリストなしでMicrosoft FoundryおよびMAI Playgroundを通じてすぐに利用可能で、CopilotやBingへの展開を進めており、さらに他のプロダクト領域への展開も計画されています。
Microsoftは「2モデル戦略」を強調しており、「Efficient」モデルは高ボリュームでコストに敏感な用途（例：マーケティング用クリエイティブ、商品写真、UIモックアップ）に用い、主力モデルはより高精度が必要な用途に温存するとしています。

Microsoftは本日、同社のフラッグシップ文→画像モデルの低コスト・高速版であるMAI-Image-2-Efficientを発表しました。企業が「ほぼ半額の価格で制作に投入できる品質を提供する」と述べる、低コストかつ高スピードなバリアントです。このリリースは、待機リスト不要でMicrosoft FoundryとMAI Playgroundで即日利用可能であり、Microsoftの社内AI超知能チームによるこれまでで最速のリードタイムを示すとともに、RedmondがOpenAIに依存しない自走可能なAIスタックを構築することに本気であることを最も明確に示すシグナルとなっています。

新モデルの価格は、テキスト入力トークン100万あたり5ドル、画像出力トークン100万あたり19.50ドルで、同じティアにおけるMAI-Image-2の5ドルおよび33ドルから約41%の値下げです。Microsoftによれば、このモデルはフラッグシップの兄弟モデルより22%高速に動作し、1024×1024解像度でNVIDIA H100ハードウェアを用いて測定したところ、GPUあたりのスループット効率が4倍向上しています。同社はさらに、競合するハイパースケーラーモデルを平均40%上回るとも主張しています。具体的には、GoogleのGemini 3.1 Flash、Gemini 3.1 Flash Image、Gemini 3 Pro Imageの3製品を挙げており、p50のレイテンシーベンチマークで平均40%という差がついたとしています。

同社によると、このモデルはCopilotおよびBingにも展開が進められており、今後さらに追加のプロダクト画面にも提供が広がる予定です。

Microsoftの2モデル戦略は、AIの価格設定パスを借りている

Microsoftは、MAI-Image-2-Efficientと、そのフラッグシップであるMAI-Image-2を、互いの代替ではなく補完的なツールとして位置付けています。これは、エンタープライズの画像生成におけるニーズ全体をカバーするために設計された「段階的なペアリング」です。

MAI-Image-2-Efficientは、大量かつコストに敏感な制作向けワークロードを狙っています。たとえばプロダクト写真撮影、マーケティング用のクリエイティブ、UIモック、ブランド資産パイプライン、そしてリアルタイムのインタラクティブなアプリケーションなどです。Microsoftによれば、見出しやラベルのような短い形式の画像内テキストをきれいに扱うことができ、バッチ処理環境における厳しいレイテンシーと予算の制約の中で動作するように作られています。一方で、MAI-Image-2は同社の「精密な計測器」のままです。つまり、アニメやイラストのような複雑なスタイリング、あるいはより長くて複雑な画像内タイポグラフィなど、要件が最高レベルの写実性を求めるとき、あるいはブリーフがより厳しいものを求めるときに手に取るべきモデルだとされています。Microsoftは、エンタープライズ顧客に実質的にこう伝えていると言えます――ライン（量産）には効率モデルを、ショーケースにはフラッグシップを。

この考え方は、AI業界でうまく機能してきた価格戦略と似ています――OpenAIのGPTモデルのティア、AnthropicのHaiku-Sonnet-Opusのラインナップ、GoogleのFlash-Proの区別――ただしそれを画像生成に特化して適用している点が重要です。コスト・パー・イメージの経済性が、大規模なプロダクション展開を左右し得る領域だからです。

Microsoftが1か月足らずで制作最適化した画像モデルを出荷した方法

今回のリリース速度は注目に値します。MAI-Image-2自体はMAI Playground上で3月19日に初登場したばかりで、VentureBeatが以前報じたとおり、その後、Microsoft Foundryを通じてより広く利用可能になる形で4月2日に到着しました。そこには他の2つの新しい基盤モデルも同時に含まれていました。MAI-Transcribe-1（25言語をサポートする音声→テキストモデル）と、MAI-Voice-1（音声生成モデル）です。1か月も経たないうちに、Microsoftは制作向けに最適化されたバリアントを出荷しました。

このスピード感からは、MAI超知能チーム――2025年11月に設立された、Microsoft AIのCEOであるMustafa Suleymanが率いる研究グループ――が、従来の大企業の研究室が論文を発表するのとは違い、スタートアップのように反復プロダクトを出荷していることがうかがえます。Suleymanが4月2日のブログ投稿で「“人間主義的AIを構築している”」と、そして「“人が実際にどのようにコミュニケーションするかに最適化し、実用に向けて訓練すること”に重点を置いている」と書いたことについて、彼らは文字通りの意味で言っていたように見えます。つまり、モデルは単に出荷しているのではなく、プロダクトのロードマップを持てるほどの速さで出荷しているのです。

MAI-Image-2への初期の評価は、特に好意的なものとなっています。Decryptはハンズオンのレビューの中で、このモデルがすでに画像生成においてArena.aiのリーダーボードで第3位に到達していたと報告しました。首位と2位はGoogleとOpenAIが占めている、という状況です。Decryptのレビュアーは、このモデルの写実性が「本当の強み」であり、テキストのレンダリングは「期待以上に、複雑なタイポグラフィをはるかに高い一貫性で処理できた、正当なハイライト」だと指摘しています。さらにレビューでは、いくつかの直接比較において、MAI-Image-2はリーダーボード上では上回られていたにもかかわらず、OpenAIのGPT-Imageに対して、画像品質とテキストレンダリングの面で上回ったことが分かったとされています。この観察は、ベンチマークのランキングが現実の有用性を常に正しく捉えるとは限らないことを示しています。

とはいえ、最初に出荷された元のモデルには、Decryptが指摘した重要な制約がありました。生成間のクールダウンが30秒、ネイティブUIにおける1日あたりの上限が15枚、出力のアスペクト比が1:1のみ、画像から画像への機能なし、そして無害な創作プロンプトでさえブロックしてしまう攻撃的なコンテンツフィルタリングです。MAI-Image-2-Efficientがこれらの制限の継承や緩和をどのようにしているのかについては、今日の発表では触れられていません。Foundry API経由でこのモデルにアクセスするエンタープライズ顧客は、プレイグラウンドの利用者とは異なる制約に直面する可能性が高いでしょう。

社内モデルが不可避になった、MicrosoftとOpenAIの関係のほころびの内側

今回のローンチは、単独では理解できません。これは、生成AI時代を象徴してきた――かつてのMicrosoftとOpenAIの関係――その協業が、縫い目から明らかにほころびてきているタイミングで到来するものです。

ほんの昨日、CNBCは、OpenAIの新しく任命された最高収益責任者（Chief Revenue Officer）であるデニス・ドレッサー（Denise Dresser）が、スタッフ向けに社内メモを送ったと報じた。そのメモでは、マイクロソフトとの提携が「当社が企業の現場に応じて対応する能力もまた制限している」と明確に述べられていたという。報道によれば、そのメモは、Amazon Web ServicesおよびBedrockプラットフォームとのOpenAIの新しい提携を成長の主要ドライバーとして称賛しており、同提携が2月下旬に発表されて以降の流入型の顧客需要について「率直に言って、目を見張るものがある（frankly staggering）」と表現したという。マイクロソフトは2024年半ばの年次報告書で、OpenAIを競合のリストに追加した。一方でOpenAIは、クラウドのインフラをCoreWeave、Google、Oracleに分散し、Microsoft Azureへの依存を減らしている。

この戦略的な切り離しの動きを、マイクロソフト側から最も具体的に表しているのが、MAIモデルファミリーだ。マイクロソフトが、自社モデルで1,000,000出力トークンあたり19.50ドルという価格で、量産品質の画像を生成できるのであれば、OpenAIの画像モデルをライセンスし続けること――そして、その結果得られた収益の一部をOpenAIに支払うこと――の計算は劇的に変わる。生産品質に到達するあらゆるMAIモデルは、マイクロソフトがOpenAIのバランスシートから自社のものへ移せる可能性がある項目（ラインアイテム）になる。

この移行を支える組織基盤はすでに整っている。3月17日、Microsoft公式ブログに掲載された告知によって明らかになった通り、CEOサティア・ナデラ（Satya Nadella）は、同社の消費者向けおよび法人向けCopilotの取り組みを単一のリーダーシップチームに統合する大規模な再編を発表した。ジェイコブ・アンドレウ（Jacob Andreou）は、ナデラに直接報告するCopilotのEVP（エグゼクティブ・バイス・プレジデント）に格上げされた。重要なのは、この再編がスレイマン（Suleyman）の役割にも焦点を再設定したことだ。ナデラが従業員向けメッセージの中で書いたように、同社は「評価（evals）、COGS（売上原価）削減、そしてフロンティアの前進といった観点で、実際に製品へ影響を与えるモデルを構築するためのタレントと計算資源によって、スーパーインテリジェンス（超知能）ミッションにさらに注力する（doubling down）」という。

この表現――「COGS削減」――は、売上原価を下げることを意味する企業用語であり、MAI-Image-2-Efficientのようなモデル群の背後にある経済的な動機を直接指し示している。マイクロソフトが、自社モデルを使うことでパートナーからのライセンス費用を節約できる1ドルは、そのまま売上総利益率（グロスマージン）に流れ込む。

なぜ安くて速い画像生成が、マイクロソフトの“エージェント型AI”の未来への隠し味なのか

今回のリリースが戦略的に重要になるもう1つの側面がある。しかも、それはおそらく最も重要なものだ。それは「AIエージェント」の台頭である。

TechCrunchが報じたところによると、昨日、マイクロソフトはOpenClawのような機能をMicrosoft 365 Copilotに統合する方法を試験しており、長期間にわたって複数ステップのタスクを実行できる常時稼働型のエージェントへと発展させている。同社はまた、Copilot Cowork（Microsoft 365アプリ内でアクションを取るエージェント）、Copilot Tasks（複数ステップの個人向け生産性タスクを完了させるためのエージェント）、およびAgent 365（ナデラの3月の再編メモで言及）も立ち上げている。マイクロソフトは6月のBuildカンファレンスで、こうしたエージェント型の能力を披露すると見られている。

エージェント型の世界――つまりAIシステムが単に質問に答えるのではなく、自律的に複雑なワークフローを実行する世界では、画像生成は、ユーザーが手作業で直接やり取りする独立した製品ではなく、エージェントがプログラム的に呼び出す基本機能（プリミティブ）になる。マーケティングキャンペーンを構築するエンタープライズのエージェントは、人の介入なしに、何十枚もの商品画像を生成し、ソーシャルメディア用の素材を作り、プレゼン資料のグラフィックを作成し、さらにデザイン案を反復する必要があるかもしれない。そのワークフローの経済性は、トークンあたりの価格とレイテンシー（遅延）だけによって完全に左右される。MAI-Image-2-Efficientはまさにそこを最適化している。Copilotにおけるマイクロソフトの構想が、より大きなワークフローの中の定型サブタスクとしてエージェントが画像を生成するものだとするなら、そのエージェントには、毎日何千回も呼び出されてもコスト見通しを爆発させないほど安く、ボトルネックを生まないほど速い画像生成が必要になる。4倍の効率改善と41%の値下げは、ただの良いマーケティング指標ではない。マイクロソフトが賭けているエージェント型の未来に向けた、アーキテクチャ上の要件そのものだ。

マイクロソフトの新しい画像モデルについて、まだ解決されていないこと

今日の発表では、いくつか重要な疑問が未回答のままだ。マイクロソフトは、MAI-Image-2-Efficientが、レビューアが元モデルで指摘したアスペクト比の制約や、厳格なコンテンツフィルタリングを解決するのかどうかを明らかにしていない。また、品位と速度のトレードオフが、複雑なプロンプトに対して目に見える劣化として現れるのかどうかも指定されていない。発表では「production-ready quality（本番投入に耐える品質）」と「flagship quality（フラッグシップ品質）」を同じ意味として使っているが、蒸留モデルは種類を問わず通常、何らかの品質面の譲歩を伴う。

さらに、プレスリリースの注記（フットノート）からは、ベンチマークの主張がテストされた条件がかなり限定的であることも読み取れる。効率の数値は、NVIDIA H100で1024×1024、かつ「最適化されたバッチサイズと、マッチさせたレイテンシー目標（optimized batch sizes and matched latency targets）」で測定されており、またGoogleモデルとのレイテンシー比較は、p95やp99ではなくp50（中央値）で行われている。これは最悪ケースの性能を捉えるには不十分だ。多様なワークロードを、さまざまな同時実行（concurrency）レベルで動かすエンタープライズ顧客では、異なる結果が見える可能性がある。MAI Playgroundは現在、米国を含む一部の市場でのみ利用可能で、EUでの提供は「近日公開」とされている。Copilotの統合は進行中だが完了していない。そしてFoundry経由のエンタープライズAPIは、稼働しているものの、まだ導入初期の段階だ。

とはいえ、流れは明白だ。MAIスーパーインテリジェンスチームが発表されてから5か月も経たないうちに、マイクロソフトはフラッグシップの画像モデルを出荷し、さらに3つの追加の基盤モデルを投入し、そして今、コスト最適化された本番投入向けの派生モデル（cost-optimized production variant）も投入した――これらをすべて、Copilot組織全体を再編し、最も重要なAIパートナーとの関係がほころび始める局面を切り抜けながら行い、さらにエンタープライズの生産性を作り変え得るエージェント型AI機能のための土台を築いている。これらが、アンソロピックの勢いに十分に速く追いつけるのか、OpenAIのAmazon方向への流れを抑えられるのか、そして600ドルの目標価格を正当化できるのか――そうした問いは、数千億ドル規模の大きな問題だ。だが、生成AI時代の最初の2年間をほとんど「誰かの技術を再販する」ことに費やしてきた企業にとって、マイクロソフトは今、AIの世界で長い間やってこなかったことをしている。つまり、自社の仕事を、自社のスケジュールで、自社の価格で出荷し、市場に追いつくだけの覚悟を求めることだ。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/15Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援