LASE:インド系言語の異なる表記体系における話者アイデンティティ保持のための言語逆対話者エンコーダ
arXiv cs.CL / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 多言語の話者エンコーダは、同一話者の音声でも表記体系(スクリプト)の違いによって埋め込みが変わってしまい、音声クローンにおけるクロススクリプトでの本人性保持を損ねることがある。
- この「アクセント条件付きの情報漏えい」は、非インド系で学習した声をインド系の表記体系に投影するクロススクリプトTTSで特に深刻になる。
- 著者らはLASE(Language-Adversarial Speaker Encoder)を提案し、凍結したWavLM-base-plusの上に小さな投影ヘッドを追加して、話者同一性を保つための教師ありコントラスト損失と、言語情報を除去する勾配反転目的を同時に学習する。
- 西洋訛り・インド訛りのコーパスでの実験では、LASEが表記体系によるコサイン類似度ギャップをほぼ埋め、残差差分がゼロ近傍(両コーパスで信頼区間にゼロを含む)であることが示され、ベースラインよりクロススクリプトのマージンを約2.4〜2.7倍改善した。
- 合成マルチ話者ダイアライゼーションでは、LASEはクロススクリプトの話者リコールでECAPA-TDNNと同等の性能を持ちながら、学習データは約100倍少ない;あわせてチェックポイント、データセット、ブートストラップ手順も公開される。



