皆さん、こんにちは、
Claudeの助けを借りてこれを試してみたところ、CMDやPowershellなどにはあまり詳しくありません。
ローカルのブルガリア語のオーディオブック用ボイスクローンを作ろうとしました — 実際に起こったことは次のとおりです
自分の声をローカルでクローンして、それを使ってブルガリア語の本を読むことに、丸一日を費やしました。以下が正直な内訳です。
設定: RTX 5070 Ti、64GB RAM、Windows 11
試み 1: XTTS-v2 (Coqui TTS)
有望に見えた — 30秒の音声だけでボイスクローンが作成でき、ローカルで動作し、無料。いくつかのトランスフォーマーのバージョン衝突と闘った後、インストールに成功し、音声を生成できた。
結果: ロシア語に聞こえる。ブルガリア語には全く近くない。XTTS-v2は公式に13言語をサポートしており、ブルガリア語はその中にない。language="ru" はコミュニティの回避策だが、出力は明らかにロシア訛り。言語に関係なく、私の実声との類似度も悪かった。
試み 2: Fish Speech 1.5
概念上はより有望 — キリル文字を含む80以上の言語で学習され、言語特化の前処理は不要。インストールできた。Windows上のモデル読み込みの問題をまだ解決中。
物事を本来あるべきより難しくしていた原因:
RTX 5070 Ti(Blackwell アーキテクチャ)は安定版の PyTorch にまだ正式には対応していません。夜間ビルドを使う必要がありました。パッケージをインストールするたびに黙って PyTorch が 2.5.1 にダウングレードされ、GPU サポートが壊れることがありました。ほぼすべての手順の後に夜間ビルドを強制再インストールする必要がありました。
現時点の結論:
現時点でブルガリア語の音声クローン機能を備えた良い無料のローカル TTS はありません。ElevenLabsはネイティブに対応していますが、10,000文字を超えると有料です。誰か実際に解決した人がいれば知りたいです。
あらゆる助言・提案に感謝します。良い音声でクローンされた声を使って自分のオーディオブックを作るには、どのソフトを使えばよいか教えてください。
Elevenlabs も試しましたが、小さな本を作るだけで非常に高額を要求されます。1,000ページの本がいくらになるか想像もつきません。
すべて個人用途のためです。販売や共有はしていません。
どうもありがとうございました。 x.o.x.o...
[リンク] [コメント]