Microsoft、音声と画像向けの3つの新AIモデルでOpenAIを“出し抜く”

The Register / 2026/4/3

📰 ニュースIndustry & Market MovesModels & Research

原文を読む →

共有:

要点

Microsoftは、音声と画像生成に重点を置いた3つの新しい自社AIモデルを展開しており、OpenAIの提供物に代わる選択肢として位置づけています。
この動きは、コアとなるAI機能に対する支配をさらに深め、特定の外部AI提供者への依存を減らすという、Microsoftの戦略的な推進を示しています。
発表は、OpenAIとのAIパートナーシップにおけるMicrosoftの変化する姿勢の一部として組み立てられており、多モーダル・モデルの能力における競争上の差別化を示唆しています。
音声と画像の両方を対象とすることで、これらのモデルは、より幅広い現実世界の多モーダル・アプリケーションを支えることを狙っており、開発者が音声・視覚対応の製品をどのように構築するかに影響を与える可能性があります。
リリースは、企業におけるAIの調達やプラットフォーム戦略にも影響しそうで、顧客がモデル提供事業者間でベンダーロックイン、性能、コストのトレードオフを評価する際の判断材料になります。

AI + ML

Microsoft、音声と画像向けの新しいAIモデル3本でOpenAIに対抗

その提携の中身とは……

Thomas Claburn

Thu 2 Apr 2026 // 20:07 UTC

Microsoftは木曜日、音声認識、音声合成、画像生成に焦点を当てた、3つの自社開発の機械学習モデルのパブリックプレビュー版を発表しました。

今回のリリースによって、Windows部門は、投資家というよりOpenAIの直の競合に見えるようになりました。レドモンドは昨年10月時点で、約1,350億ドル相当のOpenAI株式を保有していました。

モデルには以下が含まれます。MAI-Transcribe-1は、「主要な代替手段と比べてGPUコストを約50％低く抑えつつ、25言語にわたって企業レベルの精度を提供する」音声認識モデルです。MAI-Voice-1は、単一のGPUで1秒未満で60秒分の音声を生成できるとされる音声生成モデル。そしてMAI-Image-2は、テキストから画像を生成するモデルで、デジタルアーティストの絶望をさらに増やすものです。

OpenAIもまた、自前の音声認識、音声生成、そしてテキストから画像のモデルを提供しているだけにすぎません。

Microsoftのモデルは、AIエージェントやアプリケーションを開発するためのプラットフォームであるFoundry（旧Azure AI Studio）経由で利用できます。

Microsoft Azure AI Foundry Modelsのプロダクトチームを率いるNaomi Moneypennyは、モデルの到着についてブログ記事で力説しました。

返却形式: {"translated": "翻訳されたHTML"}

「これらは、Copilot、Bing、PowerPoint、Azure Speechといった当社自身の製品をすでに動かしているのと同じモデルで、そして今度は開発者が使うために、Foundryで独占的に利用可能になっています」と彼女は書いています。

これらのモデルは、音声を認識して応答を生成できるカスタマーサポート・エージェントの設計など、一般的なエンタープライズのユースケースにうまく適しているように見えます。Moneypennyは、モデルが、大規模なイベントや会議のキャプション付け、メディアの字幕作成とアーカイブ、教育やトレーニング、たとえばフォーカスグループからの顧客・市場インサイトの収集にも役立つだろうとも述べています。

Microsoftはここですでに自社の“オウン・ドッグフード”を食べています。CopilotのAudio ExpressionsはMAI-Voice-1上で動作し、CopilotのVoice Modeの文字起こしサービスはMAI-Transcribe-1を使っています。

開発者は、Azure Speechを通じて、この2つのモデルを試すことができます。

MicrosoftがOpenAIとの合意を再交渉したと発表したとき、Windows部門は、少なくとも2032年まではパートナーシップが続く見通しだと示しました。これはAI市場の急激な崩壊が起きないことを前提としたシナリオです。しかし同時に、競争分野も浮き彫りにしました。「Microsoftは、単独でも、または第三者とのパートナーシップによってもAGI［汎用人工知能］を追求できるようになりました」と当時同社は述べています。この声明そのものが、AGI研究という名目のもとで、MicrosoftがAIで自分の道を歩むための自由度を高めています。

Microsoftには、自身の賭けをヘッジする動機があります。OpenAIとのつながりは、1月にMicrosoftの投資家が同社のOpenAIへの多額支出へのエクスポージャーに不満を示したことで、ほころびが見え始めました。AIの誇大広告リーダーである同社は現金を燃やしており、The Informationが公開した社内予測によれば、今年は140億ドルを失うと見込まれています。エンタープライズ顧客に絞った取り組みを合理化するための社内の取り組みは（報道によれば）進行中で、先月末にトークンを焼却するだけで、特に役に立たない動画ジェネレーターのSora 2を停止しました。

2週間前、MicrosoftのCEOサティア・ナデラは、同社のCopilot製品および超知能（スーパインテリジェンス）の取り組みに影響するリーダーシップ変更を発表しました。ジェイコブ・アンドレオは、Microsoftの消費者向けおよび法人向けプロダクトにまたがるEVPとして、同社のCopilot体験を率いるために指名され、ナデラに直接報告します。Copilotは現在、4つの領域に注力しています。Copilot体験、Copilotプラットフォーム、Microsoft 365アプリ、AIモデルです。

おそらく、アンドレオのAIモデルの担当範囲は、単にOpenAIに「どんなモデルがあるか」を確認するだけではないでしょう。そして、Microsoftのモデル構想が十分に明白だったからこそ、ナデラはムスタファ・スレイマンがMicrosoftのAI研究を引き続き主導すると述べました。OpenAIに依存し続けることを目指すなら、まったく不要です。®

これに似た内容

次の話題についてもっと

より絞り込んだ話題

より広いトピック

これに近い話題

より絞り込んだ話題

より広いトピック

TIP US OFF

ニュースをお送りください

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/3Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

SaaSは「死なない」 AIエージェント取り込み、管理・運用が競争軸に

日経XTECH

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

Microsoft、音声と画像向けの3つの新AIモデルでOpenAIを“出し抜く”

要点

AI + ML

Microsoft、音声と画像向けの新しいAIモデル3本でOpenAIに対抗

その提携の中身とは……

関連記事

次の話題についてもっと

より絞り込んだ話題

より広いトピック

関連記事

関連記事

関連記事

より絞り込んだ話題

より広いトピック

TIP US OFF

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

SaaSは「死なない」 AIエージェント取り込み、管理・運用が競争軸に

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer