ブルガリア語のローカル音声クローン付きオーディオブック用パイプラインを構築しようとした — XTTS-v2 はロシア語風、Fish Speech 1.5 は Windows で読み込めず。キリル文字対応の TTS をローカルで解決した人はいますか?

Reddit r/LocalLLaMA / 2026/3/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 本投稿は、XTTS-v2(Coqui TTS)と Fish Speech 1.5 を用いて、ローカルのブルガリア語オーディオブック用音声クローンパイプラインを構築しようとする試みを記録しており、実用的なインストールと互換性の課題を強調しています。
  • XTTS-v2 は公式にはブルガリア語をサポートしていないうえ、たとえ language='ru' を強制しても、出力はロシア語訛りとなり、ブルガリア語としての声の類似性は依然として低い。
  • Fish Speech 1.5 は広範な言語カバレッジを示す一方で、Windows でのモデル読み込みの問題に悩まされており、安定版 PyTorch で RTX 5070 Ti がサポートされていないことと、繰り返される強制的な nightly ビルドが原因でさらに難しくなっている。
  • 著者は現時点でブルガリア語向けの優れた無料のローカル TTS ソリューションがないと結論づけ、長文には ElevenLabs が有料であることを挙げ、動作する解決策を求めている。

皆さん、こんにちは、

Claudeの助けを借りてこれを試してみたところ、CMDやPowershellなどにはあまり詳しくありません。

ローカルのブルガリア語のオーディオブック用ボイスクローンを作ろうとしました — 実際に起こったことは次のとおりです

自分の声をローカルでクローンして、それを使ってブルガリア語の本を読むことに、丸一日を費やしました。以下が正直な内訳です。

設定: RTX 5070 Ti、64GB RAM、Windows 11

試み 1: XTTS-v2 (Coqui TTS)

有望に見えた — 30秒の音声だけでボイスクローンが作成でき、ローカルで動作し、無料。いくつかのトランスフォーマーのバージョン衝突と闘った後、インストールに成功し、音声を生成できた。

結果: ロシア語に聞こえる。ブルガリア語には全く近くない。XTTS-v2は公式に13言語をサポートしており、ブルガリア語はその中にない。language="ru" はコミュニティの回避策だが、出力は明らかにロシア訛り。言語に関係なく、私の実声との類似度も悪かった。

試み 2: Fish Speech 1.5

概念上はより有望 — キリル文字を含む80以上の言語で学習され、言語特化の前処理は不要。インストールできた。Windows上のモデル読み込みの問題をまだ解決中。

物事を本来あるべきより難しくしていた原因:

RTX 5070 Ti(Blackwell アーキテクチャ)は安定版の PyTorch にまだ正式には対応していません。夜間ビルドを使う必要がありました。パッケージをインストールするたびに黙って PyTorch が 2.5.1 にダウングレードされ、GPU サポートが壊れることがありました。ほぼすべての手順の後に夜間ビルドを強制再インストールする必要がありました。

現時点の結論:

現時点でブルガリア語の音声クローン機能を備えた良い無料のローカル TTS はありません。ElevenLabsはネイティブに対応していますが、10,000文字を超えると有料です。誰か実際に解決した人がいれば知りたいです。

あらゆる助言・提案に感謝します。良い音声でクローンされた声を使って自分のオーディオブックを作るには、どのソフトを使えばよいか教えてください。

Elevenlabs も試しましたが、小さな本を作るだけで非常に高額を要求されます。1,000ページの本がいくらになるか想像もつきません。

すべて個人用途のためです。販売や共有はしていません。

どうもありがとうございました。 x.o.x.o...

投稿者 /u/Binqta
[リンク] [コメント]