Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース

GIGAZINE / 4/3/2026

📰 NewsIndustry & Market MovesModels & Research

Key Points

  • Microsoftが音声生成(MAI-Voice-1)、音声認識(MAI-Transcribe-1)、画像生成(MAI-Image-2)の3つの基盤モデルをリリースした。
  • 音声系では生成と認識を分けたモデル構成により、音声アプリでのエンドツーエンド連携がしやすい設計が示唆される。
  • 画像生成モデルの投入により、マルチモーダル/マルチコンテンツ制作を支える基盤として展開余地が広がる。
  • 企業のAI開発・製品化の基盤となり得る新モデル群で、開発者の実装や既存パイプラインの置き換え判断に影響する。


Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。

続きを読む...

Continue reading this article on the original site.

Read original →