| オス・モデルにはコーデック・エンコーダーの重みが含まれていなかったため、クローンを可能にする ref_audio パスがブロックされていました。こちらで見つけられます [link] [comments] |
音声クローンを可能にするための Voxtral TTS の欠けていたピース
Reddit r/LocalLLaMA / 2026/3/29
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- Voxtral TTS の OSS 版には「codec encoder weights」が含まれていなかったため、音声クローンに必要な ref_audio pass が実行できない状態だったと説明されています。
- その不足要素(codec encoder weights)を追加できる場所が共有され、音声クローン機能が動くようになります。
- 掲載された情報は GitHub リンク(voxtral-voice-clone)として提供され、ローカル環境での導入・再現を後押しする内容です。
- 結果として、既存の Voxtral TTS 実装の一部欠落が機能全体(音声クローン)の可否を左右することが示されています。




