| The oss model didn’t include the codec encoder weights which blocked the ref_audio pass that allows cloning. You can find it here [link] [comments] |
The missing piece of Voxtral TTS to enable voice cloning
Reddit r/LocalLLaMA / 3/29/2026
💬 OpinionSignals & Early TrendsTools & Practical Usage
Key Points
- Voxtral TTS の OSS 版には「codec encoder weights」が含まれていなかったため、音声クローンに必要な ref_audio pass が実行できない状態だったと説明されています。
- その不足要素(codec encoder weights)を追加できる場所が共有され、音声クローン機能が動くようになります。
- 掲載された情報は GitHub リンク(voxtral-voice-clone)として提供され、ローカル環境での導入・再現を後押しする内容です。
- 結果として、既存の Voxtral TTS 実装の一部欠落が機能全体(音声クローン)の可否を左右することが示されています。
Related Articles

Black Hat Asia
AI Business

AutoGen vs CrewAI: A Comprehensive Benchmark and Selection Guide for 2026
Dev.to

Building with TIAMAT: Live API Demos
Dev.to
![[P] I trained an AI to play Resident Evil 4 Remake using Behavioral Cloning + LSTM](/_next/image?url=https%3A%2F%2Fexternal-preview.redd.it%2FzgmJOxETuqgqlsgMxeBl7S4gZNDHf_K3U9w883ioT4M.jpeg%3Fwidth%3D320%26crop%3Dsmart%26auto%3Dwebp%26s%3Da63f97b9d03c40b846cd3eaac472e78050020a43&w=3840&q=75)
[P] I trained an AI to play Resident Evil 4 Remake using Behavioral Cloning + LSTM
Reddit r/MachineLearning

I Built a Read-Only kubectl So AI Agents Can't Break My Cluster
Dev.to