Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース

GIGAZINE / 4/3/2026

📰 NewsIndustry & Market MovesModels & Research

共有:

Key Points

Microsoftが音声生成（MAI-Voice-1）、音声認識（MAI-Transcribe-1）、画像生成（MAI-Image-2）の3つの基盤モデルをリリースした。
音声系では生成と認識を分けたモデル構成により、音声アプリでのエンドツーエンド連携がしやすい設計が示唆される。
画像生成モデルの投入により、マルチモーダル/マルチコンテンツ制作を支える基盤として展開余地が広がる。
企業のAI開発・製品化の基盤となり得る新モデル群で、開発者の実装や既存パイプラインの置き換え判断に影響する。

Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。

Continue reading this article on the original site.

This article is featured in our daily AI news digest — key takeaways and action items at a glance.

AI Business

AI Business

Dev.to

Dev.to

MarkTechPost