Encodec比80×圧縮で90分・4話者の会話を合成するVibeVoiceを解説する

Zenn / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • VibeVoiceは、Encodec比80×の圧縮を活用し、90分の会話データから4話者分の会話音声を合成する長時間・多話者音声生成の仕組みを解説しています。
  • 目標は、会話の自然さを保ちつつ、音声表現を大きく圧縮して学習・生成を効率化する点にあります。
  • 記事では、圧縮により扱う情報量を減らしながら、複数話者の発話を区別して合成するための考え方(音声生成パイプラインの設計)を中心に説明します。
  • 実用面として、長尺会話の生成や、限られた音声収録時間での多話者音声合成の実現可能性が論点になります。
はじめに この論文の完全解説(英語・図解付き)は flecto で公開中 → 論文の概要(TL;DR) VibeVoice は7.5 HzトークナイザーでEncodec比80×圧縮を実現し、次トークン拡散によって最大4話者・90分の自然な対話を1つのLLMコンテキストウィンドウ内で合成できる画期的なTTSモデルです。音声品質はMOS 3.76を達成し、Gemini-2.5-Pro-Preview-TTS(3.40)やEleven-V3 Alpha(3.66)を含む競合モデルを上回ります。 背景と問題設定 近年のTTSは1話者・短い発話では目覚ましい進歩を遂げていますが、長尺・...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →