要旨: 商用TTSシステムはネイティブに近いインド系言語(Indic)の音声を生成しますが、最良のオープンソース基盤(Chatterbox、Indic Parler-TTS、IndicF5)は、測定された音韻的側面においてそれらに遅れています。また、最も広く採用されている多言語基盤(Chatterbox、23言語)は、テルグ語やタミル語ですらトークン化していません。そこで問いは次のとおりです。新しい音響デコーダを学習せず、商用TTSの学習データも使わないまま、どの最小限の介入で、テルグ語・タミル語・ヒンディー語において、このような非インド系ネイティブの基盤を商用クラスの出力に到達させられるのでしょうか?
我々は3つの要素を組み合わせます: (1) BUPS(Brahmic Unified Phoneme Space)。7つのインド系文字体系をISO-15919に決定的にローマ字化し、Chatterboxのラテン語トークナイザが処理できるようにします; (2) テキスト・トークン予測器のみへのLoRAアダプタ(Chatterboxのt3)。ヒンディーのプロキシとなるlanguage_idを用いて、ライセンスされたインド系音声約1,220時間で学習します; (3) 音声プロンプト復元レシピ――同一言語の8〜11秒の参照クリップに加え、3つのサンプリング上書き(exaggeration 0.7、temperature 0.6、min_p 0.1;「Config B」)。これにより、音響デコーダの学習なしで、商用クラスの音響出力が復元されます。ヒンディーでは、LoRAが精度を退行させるため、その代わりにバニラChatterbox + Config Bを用い、二系統のデプロイを行います。PSPベンチマークを併用した10発話のパイロットセットで評価した結果、Praxy Voiceは商用ベースラインと同等、あるいはわずかに上回ります:テルグ語で26.7%のretroflex collapse(Sarvam Bulbulは33.3%)、タミル語で71%のTamil-zha collapse(商用トリオは86%)、ヒンディーで0.025のLLM-WER(Cartesia Sonic-3と同率)。文中内のコードミックスでは、3つ目の分岐としてIndicF5 + ネイティブ文字のトランスリテレーションを追加し、Hi/Te/Taの全てにおいて、コードミックスのLLM-WERを0.80-0.85から0.14-0.27へと低下させます。R6のLoRA重み(Apache-2.0)、推論コードとルータ(MIT)、そしてGradioデモを公開します。
Praxy Voice:冷凍された非インド系ベースから商用級のインド系TTSを実現する音声プロンプト復元+BUPS(商用学習データなし・学習コスト0)
arXiv cs.CL / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、音響デコーダを新たに学習せず、商用TTSの学習データも使わずに、テルグ語・タミル語・ヒンディー語で非インド系の多言語TTSベースを商用級の出力へ引き上げる「Praxy Voice」を提案する。
- 提案手法は、(1) BUPS(Brahmic Unified Phoneme Space)によるISO-15919への決定的なローマ字化、(2) ライセンス済みのインド系音声約1,220時間でテキスト・トークン予測器に対して学習するLoRA、(3) 短い同一言語の参照クリップとサンプリング上書き(exaggeration 0.7、temperature 0.6、min_p 0.1 など)による「音声プロンプト復元」を組み合わせる。
- PSPベンチマークに基づくパイロット評価では、Praxy Voiceが複数の音韻的指標で商用ベースラインに匹敵、またはわずかに上回る結果が示される(例:ヒンディーでのLLM-WERの低さ、テルグ語・タミル語での「collapse」率の低下)。
- ヒンディーではLoRAによって精度が下がるため、2分岐のデプロイ(LoRAを使わず、ベース+「Config B」の音声プロンプト復元にフォールバック)を採用する。
- 文中のコードミックスに対しては、第3の分岐としてIndicF5+ネイティブ文字のトランスリテレーションを追加し、コードミックスのLLM-WERを大幅に低減したうえで、R6 LoRA重み・推論コード/ルータ・Gradioデモを公開する。




