Microsoft、OpenAIとGoogleへの直接対抗として3つの新しいAIモデルを発表

VentureBeat / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Microsoftは社内の「基盤」AIモデル3つ――音声文字起こし用のMAI-Transcribe-1、音声生成用のMAI-Voice-1、画像作成用のMAI-Image-2――を立ち上げ、OpenAIおよびGoogleへの直接の競合として位置付けた。
これらのモデルは、Microsoft Foundryと新しいMAI Playgroundを通じて即時に利用可能で、基幹となるエンタープライズ向けAIモダリティである「音声からテキスト」「現実的な音声」「画像生成」をターゲットとしている。
Microsoftは、MAI-Transcribe-1が25の言語でベストインクラスの文字起こし品質を提供し、主要な競合と比べて必要となるGPUをおよそ半分に抑えながら達成できると述べている。
今回の発表は、新しく設置された「スーパーインテリジェンスチーム」が掲げる「AI自給自足」を目指した最初の具体的な成果として打ち出される一方で、AIインフラ投資に紐づく失望的な結果を受けた投資家の圧力にも対応するものとなっている。
モデルを強気に価格設定し、Microsoftの売上原価（COGS）を引き下げることを狙うことで、Microsoftはこれらのリリースを、自社のモデル開発戦略から短期的な商業価値を引き出せることの実証として用いている。

Microsoftは水曜日、完全に社内で開発した3つの新しい基盤AIモデルを発表しました。最先端の音声文字起こしシステム、音声生成エンジン、アップグレードされた画像作成機能で、これは同社がOpenAI、Google、そしてその他のフロンティア・ラボに対して、モデル開発において直接競争する意図があることを示す、これまでで最も具体的な証拠です。単なる配布ではなく。

3つのモデル――MAI-Transcribe-1、MAI-Voice-1、そしてMAI-Image-2――はいずれもMicrosoft Foundryと新しいMAI Playgroundを通じて、即時に利用可能です。これらは、エンタープライズAIで最も商業的価値の高い3つのモダリティをカバーしています。すなわち、音声をテキストに変換すること、現実的な人間の声を生成すること、画像を作成することです。合わせて、スーパーインテリジェンス・チームからのマイクロソフトの最初の一撃を表しています。同チームは、Suleymanが6か月前に立ち上げたもので、彼が「AI自立」と呼ぶものを追求するために結成されました。

打ち上げに先立ち独占インタビューで、SuleymanはVentureBeatに対し、「いま出揃った最初のモデルが、とても興奮しています。文字起こしに関して世界最高水準のモデルです」と述べました。「それだけではありません。最先端の競合の半分のGPUで、そのモデルを提供できるんです。」

この発表は、Microsoftにとってきわめて不安定なタイミングで行われました。同社の株価は2008年の金融危機以来の最悪の四半期で着地したばかりです。投資家は、数千億ドル規模のAIインフラ投資が収益につながることの裏付けを、ますます求めるようになっています。これらのモデルは、攻めた価格設定で、Microsoft自身の売上原価を下げる位置づけになっており、Suleymanにとってその圧力への最初の回答です。

Microsoftの新しい文字起こしモデルは25言語で最高クラスの精度を主張

MAI-Transcribe-1が目玉のリリースです。音声からテキストへのモデルは、業界標準の多言語テストであるFLEURSベンチマークで、Microsoftのプロダクト利用率上位25言語において、最も低い平均Word Error Rate（WER）を達成し、平均は3.8%のWERです。Microsoftのベンチマークによれば、MAI-Transcribe-1は、OpenAIのWhisper-large-v3に対して25言語すべてで上回り、GoogleのGemini 3.1 Flashに対して22言語（25中22）で上回り、さらにElevenLabsのScribe v2とOpenAIのGPT-Transcribeに対して、それぞれ25中15言語で上回ります。

このモデルは、双方向の音声エンコーダを備えたトランスフォーマー型のテキストデコーダを使用します。MP3、WAV、FLACの各ファイルを最大200MBまで受け付け、Microsoftは、バッチ文字起こしの速度が既存のMicrosoft Azure Fastの提供より2.5倍速いとしています。話者分離（diarization）、文脈に基づくバイアス（contextual biasing）、ストリーミングは「近日公開」として挙げられています。MicrosoftはすでにMAI-Transcribe-1を、Copilotの音声モードとMicrosoft Teams内での会話の文字起こし用途としてテストしています。この点は、同社がサードパーティ製、あるいは古い社内モデルを自社のものに置き換える方針を、いかに迅速に進めようとしているかを裏づけています。

これに並行して、MAI-Voice-1はMicrosoftのテキスト読み上げ（text-to-speech）モデルで、たった1秒で60秒分の自然に聞こえるオーディオを生成できます。このモデルは、長尺コンテンツにわたって話者のアイデンティティを保持し、さらにMicrosoft Foundryを通じて、数秒の音声だけからカスタムボイスの作成を新たにサポートします。価格は1,000,000文字あたり22ドルです。MAI-Image-2は一方で、Arena.aiのリーダーボードでトップ3のモデルファミリーとしてデビューし、従来モデルと比べてFoundryおよびCopilotで少なくとも2倍の生成速度を提供します。MicrosoftはこれをBingおよびPowerPointに展開しており、テキスト入力は1,000,000トークンあたり5ドル、画像出力は1,000,000トークンあたり33ドルの価格設定です。世界最大級の広告持株会社の一つであるWPPは、スケールしてMAI-Image-2で構築する最初のエンタープライズ・パートナーの一社です。

OpenAIとの契約条件の再交渉が、Microsoftのモデル構想を可能にした

これらのモデルがなぜ重要なのかを理解するには、それらを可能にした契約上の地殻変動を理解する必要があります。2025年10月まで、Microsoftは契約上、単独で人工汎用知能（AGI）を追求することが禁じられていました。2019年に締結されたOpenAIとの当初の契約では、Microsoftは、OpenAIが必要とするクラウドのインフラを構築することと引き換えに、OpenAIのモデルにライセンスを得ることになっていました。しかしOpenAIがMicrosoft以外での計算資源の拠点拡大を求めたとき――SoftBankなどとの取引を結んだことで――Microsoftは再交渉しました。Suleymanが2025年12月のBloombergのインタビューで説明したように、修正後の合意により「数週間前まで、Microsoftは――契約により――人工汎用知能やスーパーインテリジェンスを独自に追求することは認められていなかった」のです。新しい条件は、2032年までにOpenAIが構築するあらゆるものへのライセンス権を保持しつつ、Microsoftが自社のフロンティア・モデルを作ることを解放しました。

Suleymanは、この力学をVentureBeatに対して、いつも通り率直な言葉で説明しました。「昨年の9月に、OpenAIとの契約を再交渉しました。それが、私たちが自分たちのスーパーインテリジェンスを独自に追求できるようにしてくれたんです」と彼は語りました。「それ以来、必要な計算資源とチームを集め、必要なデータを買い集めてきました。」

彼は、OpenAIとの提携はそのまま維持されていると強調することに早かった。「OpenAIとの提携について何も変わりません。私たちは少なくとも2032年までは彼らと提携しており、できればさらにずっと長く続くはずです」とスレイマン氏は語った。「彼らは私たちにとって、素晴らしいパートナーでした。」さらに、マイクロソフトは、自社のFoundry APIを通じて、アンスロピックのClaudeへのアクセスを提供していると指摘し、同社を「プラットフォームのプラットフォーム」と位置づけた。しかし、含意ははっきりしている。マイクロソフトは、自立して立てるだけの能力を構築しているのだ。3月には、Business Insiderが最初に報じた通り、スレイマン氏は社内メモで、自身の目標は「今後5年間、マイクロソフトに向けて世界水準のモデルを提供できるよう、私のエネルギーをスーパインテリジェンスの取り組みにすべて集中することだ」と書いていた。CNBCは報じているところによれば、構造的な転換によってスレイマン氏は日々のCopilotプロダクトの責務から解放され、旧Snapの幹部ジェイコブ・アンドレオ氏が、統合されたコンシューマー／商用のCopilot体験のEVP（エグゼクティブ・バイス・プレジデント）を引き継いだという。

10人未満のエンジニアチームが、Big Techの最高水準に匹敵するモデルをどう作ったか

VentureBeatがスレイマン氏から聞いた内容の中で、おそらく最も印象的だったのは、これらのモデルを支えるチームが実際にはどれほど小さいのかという点だ。「オーディオモデルは10人で作りました。そして、速度、効率、正確さの大半の向上は、モデルのアーキテクチャと、私たちが使ったデータによるものです」とスレイマン氏は語った。「私の哲学は常に、より権限を与えられた少人数が必要だということでした。そのため、私たちは非常にフラットな組織運営をしています。」さらにこう付け加えた。「イメージチームも同様に10人未満です。つまり、これはモデルとデータの革新にすべて尽き、それが最先端のパフォーマンスをもたらしました。」

この点が重要なのは、2つの理由がある。1つ目は、「最前線のAI開発には何千人もの研究者と、数十億ドル規模の人員コストが必要だ」という、業界に広く浸透した従来の物語に異議を唱えるからだ。Metaは対照的に、スレイマン氏がブルームバーグのインタビューで「チームを作るというより、多くの個人を採用する」という戦略を追求している。最高研究者向けに、報酬パッケージとして1億ドル〜2億ドルが報じられているのもその一環だ。2つ目は、小規模チームが最先端の成果を生み出すことで、経済性が劇的に改善することだ。もしマイクロソフトが、10人のエンジニアと競合の半分のGPUで最高水準の文字起こしを構築できるのなら、AI事業のマージン構造は、同等のベンチマークを達成するために現金を燃やし続ける企業とは根本的に異なって見えるはずだ。

リーンなチーム方針はまた、AIそのものを作る仕事が、すでにどのように再構成されているかについての、スレイマン氏のより広い見解とも呼応している。VentureBeatから「あなた自身のチームはどう機能しているのか」と尋ねられると、スレイマン氏は、従来型のマイクロソフトのエンジニアリング組織というより、スタートアップのトレーディングフロアに似た環境だと説明した。「大きなデスクではなく、丸テーブルや円形テーブルの周りに人のグループがいて、大画面ではなくラップトップを使っているんです」と彼は言った。「彼らは基本的に終日“ノリ”でコーディングしていて、朝から夜まで、50人か60人の部屋で並んで作業しています。」

スレイマン氏の「ヒューマニストAI」提案が、狙いを企業の購入者に正確に定めている理由

スレイマン氏は、マイクロソフトのAIの取り組みに関して、彼が「ヒューマニストAI」と呼ぶ哲学的なブランドを着実に構築してきた。これは、立ち上げの際に彼が執筆したブログ記事で大きく打ち出され、さらに私たちのインタビューでも彼が詳しく語った用語だ。「ヒューマニストのスーパインテリジェンスの動機は、人類のために本当に役立つものを作ることだと思います」とVentureBeatに語った。「食物連鎖の頂点では人間が引き続き主導権を握り続け、そして人間の利益に常に整合するでしょう。」

この言い方は複数の目的を果たしている。OpenAIやMetaから出てくる、より加速志向の強い語り口と、マイクロソフトを差別化する。規制された産業でAIを導入する前に、ガバナンス、コンプライアンス、安全性の保証が必要になる企業の購買層に響く。そして、ナラティブ（物語）のヘッジにもなる。広いAIエコシステムのどこかで問題が起きた場合、マイクロソフトは、人間による統制へのコミットメントを掲げていると示すことができる。12月のブルームバーグのインタビューでスレイマン氏はさらに踏み込み、封じ込めとアラインメントを「レッドライン」だと述べ、誰もがスーパインテリジェンスのツールを「制御できると確信できるまで」リリースすべきではないと主張した。

またスレイマン氏は、競争上の優位性としてデータの出所（プロベナンス）を強調し、CEOサティア・ナデラ氏との会話として、「データが極めてきれいな、モデルのクリーンな系譜を開発する」ことについて語った。さらに彼は、オープンソースの代替案との間に暗黙の対比を示し、「多くのオープンソースのモデルは、たとえば不適切なやり方でデータを投入して学習されているものがある。そしてそれには潜在的なセキュリティ上の問題がある可能性があります」と述べた。業界全体で著作権訴訟のもつれが生じる中、AIベンダーを評価する企業顧客にとって、これは意味のある商業的な論拠だ。マイクロソフトが、学習データが適切なライセンスを通じて取得されたものであると信頼できる形で主張できるなら、これらのモデルを本番環境で導入する際の法的リスクと評判上のリスクが下がるからだ。

マイクロソフトの攻めた価格設定が、Amazon、Google、そしてAIスタートアップのエコシステムに圧力をかける

今回のローンチは、マイクロソフトを同時に3つの競争局面に投入する。MAI-Transcribe-1 は、オープンソースのコミュニティで支配的だった、OpenAIのWhisperモデルの文字起こしワークロードを直接狙い、マイクロソフトは25のベンチマーク言語すべてで優れた精度を主張している。FLEURSの結果も、22/25の言語でGoogleのGemini 3.1 Flash Liteに勝っていることを示しており、これはGoogleが自社製品群にGeminiを積極的に押し込む中での、真正面からの挑戦だ。そしてMAI-Voice-1は、数秒の音声から声をクローンし、60倍のリアルタイムで音声を生成できる能力によって、ElevenLabs、Resemble AI、そして成長を続ける音声AIスタートアップのエコシステムと競合する立場にある。さらにマイクロソフトには流通（配布）の優位性がある――いまやFoundryの開発者なら誰でも、GPT-4やClaudeに使っているのと同じAPI経由でこれらの機能にアクセスできる。これは強力な“堀”となる。

スレイマンは競争上の立ち位置について自信を持ってこう述べた。「いまや私たちは、OpenAIとGeminiのすぐ下の“トップ3のラボ”です」とVentureBeatに語った。価格戦略――MAI-Voice-1は100万文字あたり22ドル、MAI-Image-2は入力トークン100万個あたり5ドル――は、コストで競うという意図的な判断を反映している。「私たちは、あらゆるハイパースケーラーの中でも最も優位な価格設定にしています。つまり、ハイパースケーラー各社の中で最安になる。Amazonであれ、そしてもちろんGoogleであれ」とスレイマンは述べた。「これは、非常に意識的な決定です。」

これは、マイクロソフトにとって戦略的に筋が通っている。マイクロソフトは、膨大な数のエンタープライズ顧客という導入済みの基盤を通じて、モデル開発コストを償却できるからだ。だが同時に、投資家がますます切実に抱いている疑問、すなわち「AIの支出はいつになったらリターンを生み始めるのか？」にも触れている。CNBCによれば、ソフトウェア株全体のより広範な売りに巻き込まれる中でマイクロソフトの株価は年初来でおよそ17%下落している。競合のGPUの半分で動くモデルを構築することで、マイクロソフトは社内向けプロダクト――Teams、Copilot、Bing、PowerPoint――にかかるインフラコストを自社側で抑えられる一方、開発者に対しては市場の残りの部分を下回ることを狙った価格設定を提示している。3月のメモで、スレイマンは書いたところによれば、同氏のモデルは「今後数年に必要とされる、途方もなく大規模なAIワークロードに対応するために、COGS（売上原価）効率を提供できるようにしてくれる」ことになるという。これら3つのモデルは、その約束に対する最初の具体的な成果だ。

スレイマンはフロンティア級の大規模言語モデルが来ると言い、マイクロソフトは「完全に独立」する計画だ

スレイマンは、文字起こし、音声、画像生成はあくまで始まりにすぎないと明確にした。フロンティア段階でGPTと直接競うための大規模言語モデルをマイクロソフトが構築するのかと問われると、彼ははっきりとこう答えた。「私たちは、あらゆるモダリティにわたって最先端のモデルを提供することになります」と述べた。「私たちの使命は、マイクロソフトがそれを必要とすることがあれば、そのときに最良の効率、最も安い価格で、そして完全に独立した形で、最先端の提供ができるようにすることです。」

同氏は「適切な規模でGPUクラスターを整える」ための複数年にわたるロードマップについて語り、さらに、超知能（スーパインテリジェンス）チームが正式に設置されたのは2025年10月のことだったと指摘した。スレイマンはマイアミからVentureBeatに語った。そこではチーム全員が、定例の1週間にわたる対面セッションの一つに集まっていた。スレイマンは、ナデラが集まりに飛び込んで、「今後2年、3年、4年の間に、AIの自立（セルフサフィシティ）ミッションを達成するために必要なすべてのことのロードマップ、そしてそれに伴うあらゆる計算（コンピュート）のロードマップ」を提示したと説明した。

もちろん、競争力のあるフロンティア級LLM（大規模言語モデル）を構築するのは、マイクロソフトが先週水曜日に示した内容とは、複雑さ、データ要件、計算コストの面で、別次元の話だ。今日投入されるモデルは専門特化型で、ChatGPTやCopilotの中核となる知能を支える一般的な推論やテキスト生成ではなく、音声と画像を扱う。スレイマンには組織的な指名があり、ナデラの公的な後ろ盾もあり、契約上の自由度もある。だが現時点で欠けているのは、AIにおける最も難しい問題をマイクロソフトで解き切るという実績だ。

しかし見てみれば、同氏が持っているものもある。すなわち、各領域で最高水準、あるいはそれに非常に近い3つのモデル。多くのシード期スタートアップより小さなチームによって構築され、業界標準のGPU搭載規模の半分で動作し、あらゆる主要クラウド競合よりも安い価格がつけられている。2年前、スレイマンはMIT Technology Reviewで、自身が「Modern Turing Test（モダン・チューリングテスト）」と呼んだ提案をした。それは、AIが会話の中で人間を騙せるかどうかではなく、最小限の監視のもとで、現実の世界へ出て本当の経済的タスクを達成できるかどうかを問うものだった。水曜日には、自身のモデルがそのビジョンへ向けて一歩を踏み出した。問題は今、マイクロソフトの超知能チームが、本当に意味のある規模でその芸を再現できるかどうか、そして市場の忍耐が尽きる前にそれをやり遂げられるかどうかだ。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/3Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

日経XTECH

三井住友FGが新中計を発表、IT投資3年で1兆円規模 AI活用加速

日経XTECH

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA