Microsoft、3つの新しい基盤モデルでAI競合に挑む

TechCrunch / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

共有:

要点

Microsoft AIは、テキスト、音声、画像を生成または変換できる3つの新しい基盤マルチモーダルモデル――MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2――を発表しました。
MAI-Transcribe-1は25言語に対応した音声認識（speech-to-text）に焦点を当てており、Azure Fastより2.5倍高速だと主張されていて、実運用を見据えたプロダクション向けワークロードに適した位置づけです。
MAI-Voice-1は高速な音声生成（1秒で60秒分）を可能にし、カスタム音声の作成もサポートします。一方、MAI-Image-2は生成の対象を動画へ拡張します。
これらのモデルはMicrosoft Foundry経由で提供されており、MAI-Transcribe-1とMAI-Voice-1はMAI Playgroundでも利用可能です。MAI-Image-2は以前からMAI Playgroundで紹介されていました。
Microsoftは今回のリリースを、マルチモーダルなモデルスタックを自社で拡充してAI競合に対抗するというより広い戦略の一環だと位置づけていますが、一方で自社が依然としてOpenAIに結びついていることも認めています。

マイクロソフトのテック企業としての研究ラボであるMicrosoft AIは木曜日、テキスト、音声、画像を生成できる3つの基盤AIモデルの提供開始を発表しました。

このリリースは、OpenAIに依存したままであるにもかかわらず、マイクロソフトが独自のマルチモーダルAIモデル群の構築を進め、競合するAI研究機関と対抗する姿勢を継続していることを示すものです。

MAI-Transcribe-1は、25の異なる言語にまたがる音声をテキストに書き起こし、同社のプレスリリースによれば、MicrosoftのAzure Fastの提供より2.5倍高速です。MAI-Voice-1は音声生成モデルです。この音声モデルにより、ユーザーは1秒で60秒分のオーディオを生成でき、さらにカスタムボイスも作成可能です。MAI-Image-2は動画生成モデルです。

MAI-Image-2は当初MAI Playgroundで提供開始されました。MAI Playgroundは新しい大規模言語モデルのテスト用ソフトウェアで、3月19日に公開されています。現在は3つのモデルすべてがMicrosoft Foundryで提供開始されており、書き起こしモデルと音声モデルはMAI Playgroundでも利用できます。

これらのモデルは、Microsoft AIのCEOであるMustafa Suleymanが率いるMicrosoftのMAIスーパーインテリジェンスチームによって開発されました。このAI研究チームは2025年11月に結成され、発表されました。

「Microsoft AIでは、人間主義（Humanist）AIを構築しています。私たちがAIモデルを作るにあたっては独自の考え方があります。人間を中心に据え、人が実際にどのようにコミュニケーションしているかに最適化し、実用に向けてトレーニングすることです」とSuleymanはブログ記事に書きました。「皆さんは、FoundryおよびMicrosoftの製品や体験の中で、私たちのより多くのモデルを近日中に目にすることになるでしょう。」

混み合ってきたLLM市場において、MAIはこれらのモデルのセールスポイントが、GoogleやOpenAIのものよりも安価であることだと、同社はブログ記事に記しました。

Techcrunchイベント

Disrupt 2026: テック・エコシステムを1つの会場に

次のラウンド。次の採用。次のブレイクスルーの機会。 TechCrunch Disrupt 2026にて開催。10,000人超の創業者、投資家、テックリーダーが3日間、250回超の戦術セッション、強力な紹介、そして市場を定義するイノベーションに集まります。今すぐ登録して最大400ドル分を節約しましょう。

TechCrunch Founder Summitで最大300ドルまたは30%オフ

1,000人以上の創業者と投資家が、TechCrunch Founder Summit 2026に集結。成長、実行、現実世界でのスケールに焦点を当てた終日プログラムです。業界を形作ってきた創業者や投資家から学びましょう。同様の成長段階を歩む仲間とつながりましょう。すぐに適用できる戦術を手に入れてください

オファーは3月13日で終了します。

カリフォルニア州サンフランシスコ | 2026年10月13-15日

MAI-Transcribe-1は1時間あたり0.36ドルからです。MAI-Voice-1は100万文字あたり22ドルからで、MAI-Image-2はテキスト入力の100万トークンあたり5ドル、画像出力の100万トークンあたり33ドルからです。

自社モデルをリリースしたにもかかわらず、SuleymanはVentureBeatとのインタビューの中で、OpenAIとのパートナーシップへのマイクロソフトのコミットメントを改めて確認しました——ただし、そのパートナーシップの最近の再交渉により、マイクロソフトがこのスーパーインテリジェンスの研究を本気で追求できるようになったと、SuleymanはThe Vergeに語っています。

マイクロソフトはAI研究ラボに130億ドル以上を投資しており、複数年にわたるパートナーシップを通じて、さまざまな製品でそのモデルをホスティングしています。マイクロソフトはチップに関しても同じ姿勢を取っています。つまり、自社で生産することもあれば、外部のプレイヤーから購入することもあります。

Black Hat USA

AI Business

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

SaaSは「死なない」 AIエージェント取り込み、管理・運用が競争軸に

日経XTECH

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

Microsoft、3つの新しい基盤モデルでAI競合に挑む

要点

Disrupt 2026: テック・エコシステムを1つの会場に

TechCrunch Founder Summitで最大300ドルまたは30%オフ

関連記事

Black Hat USA

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

SaaSは「死なない」 AIエージェント取り込み、管理・運用が競争軸に

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer