The missing piece of Voxtral TTS to enable voice cloning

Reddit r/LocalLLaMA / 3/29/2026

💬 OpinionSignals & Early TrendsTools & Practical Usage

Key Points

  • Voxtral TTS の OSS 版には「codec encoder weights」が含まれていなかったため、音声クローンに必要な ref_audio pass が実行できない状態だったと説明されています。
  • その不足要素(codec encoder weights)を追加できる場所が共有され、音声クローン機能が動くようになります。
  • 掲載された情報は GitHub リンク(voxtral-voice-clone)として提供され、ローカル環境での導入・再現を後押しする内容です。
  • 結果として、既存の Voxtral TTS 実装の一部欠落が機能全体(音声クローン)の可否を左右することが示されています。
The missing piece of Voxtral TTS to enable voice cloning

The oss model didn’t include the codec encoder weights which blocked the ref_audio pass that allows cloning. You can find it here

submitted by /u/al0olo
[link] [comments]