音声を扱う AI は、ざっくり 「文字 → 声」「声 → 別の声」「声 → 文字」 の3方向に分けると理解しやすくなります。それぞれ TTS(読み上げ)・ボイスチェンジ(音声変換)・STT(文字起こし) と呼ばれ、得意なことも、気をつける点も違います。このページでは、2026年時点で実際に動いているツールを例にしながら、最初の地図になるよう整理します。
FIG.1 入口(文字 or 声)と出口(声 or 文字)の組み合わせで、使う道具が決まる
01まず「3つの方向」を区別する
音声 AI でつまずく一番の原因は、別物の技術をまとめて「音声 AI」と呼んでしまうことです。最初に方向を分けておくと、ツール選びで迷いません。
TTS(読み上げ)
テキストを音声に変換。ナレーション、記事の聞き読み、アプリの読み上げ。入口は「文字」。
ボイスチェンジ(音声変換)
話した声を別の声質へ変換。配信や演出。入口も出口も「声」で、内容(言葉)は変えない。
STT(文字起こし)
音声をテキストに変換。会議の議事録、字幕、インタビュー書き起こし。出口は「文字」。
同じ「音声」でも、TTS は入力がテキスト、ボイスチェンジは入力が声、STT は出力がテキスト――この入口と出口の違いが、そのまま道具の違いになります。
02TTS:文字を自然な声で読み上げる
TTS(Text To Speech)は、書いた文章をそのまま声にします。2026年時点の高品質 TTS は、機械的な棒読みではなく、間(ま)や抑揚、軽い感情表現まで再現できるところまで来ています。たとえば ElevenLabs は、長文ナレーション向けの安定モデルから、応答速度を重視したリアルタイム向けモデルまで複数を用意し、最新の高表現モデルは70言語以上に対応しています。日本語に対応するサービスも増えていますが、自然さは言語によって差があるため、用途の言語で試聴して選ぶのが確実です。