広告

音声クローンを可能にするための Voxtral TTS の欠けていたピース

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Voxtral TTS の OSS 版には「codec encoder weights」が含まれていなかったため、音声クローンに必要な ref_audio pass が実行できない状態だったと説明されています。
  • その不足要素(codec encoder weights)を追加できる場所が共有され、音声クローン機能が動くようになります。
  • 掲載された情報は GitHub リンク(voxtral-voice-clone)として提供され、ローカル環境での導入・再現を後押しする内容です。
  • 結果として、既存の Voxtral TTS 実装の一部欠落が機能全体(音声クローン)の可否を左右することが示されています。
The missing piece of Voxtral TTS to enable voice cloning

オス・モデルにはコーデック・エンコーダーの重みが含まれていなかったため、クローンを可能にする ref_audio パスがブロックされていました。こちらで見つけられます

投稿者 /u/al0olo
[link] [comments]

広告