LASE:インド系言語の異なる表記体系における話者アイデンティティ保持のための言語逆対話者エンコーダ

arXiv cs.CL / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 多言語の話者エンコーダは、同一話者の音声でも表記体系(スクリプト)の違いによって埋め込みが変わってしまい、音声クローンにおけるクロススクリプトでの本人性保持を損ねることがある。
  • この「アクセント条件付きの情報漏えい」は、非インド系で学習した声をインド系の表記体系に投影するクロススクリプトTTSで特に深刻になる。
  • 著者らはLASE(Language-Adversarial Speaker Encoder)を提案し、凍結したWavLM-base-plusの上に小さな投影ヘッドを追加して、話者同一性を保つための教師ありコントラスト損失と、言語情報を除去する勾配反転目的を同時に学習する。
  • 西洋訛り・インド訛りのコーパスでの実験では、LASEが表記体系によるコサイン類似度ギャップをほぼ埋め、残差差分がゼロ近傍(両コーパスで信頼区間にゼロを含む)であることが示され、ベースラインよりクロススクリプトのマージンを約2.4〜2.7倍改善した。
  • 合成マルチ話者ダイアライゼーションでは、LASEはクロススクリプトの話者リコールでECAPA-TDNNと同等の性能を持ちながら、学習データは約100倍少ない;あわせてチェックポイント、データセット、ブートストラップ手順も公開される。

Abstract

多言語音声クローニングで用いられる話者エンコーダは、音声がどの文字体系で発話されたかにかかわらず、同一話者を同一として扱うべきである。市販の既製エンコーダはそうではなく、その失敗はアクセント条件に依存する。英語・ヒンディー語・テルグ語・タミル語にまたがる1043ペアの西洋アクセント音声コーパスにおいて、同一の声が文字体系を変えるとき、WavLM-base-plus-sv は絶対コサイン類似度を 0.082 分失い、ECAPA-TDNN は 0.105 分失う。1369ペアのインドアクセント音声コーパスでは、その差は 0.006(WavLM-SV)および 0.044(ECAPA-TDNN)まで縮小する。リーク(漏れ)は、とりわけ文字体系をまたぐ TTS で重要になる箇所で最大となる。すなわち、非インド語派として訓練された声をインド語派の文字体系へ投影する場合である。私たちは LASE(Language-Adversarial Speaker Encoder)を提案する。これは凍結した WavLM-base-plus の上に載せる小型の投影ヘッドであり、2つの損失で学習する。1つは話者同一性に対する教師ありコントラスト損失、もう1つは埋め込みを言語非情報的にしつつ話者情報は保持することを促す、4言語分類器に対する勾配反転付きの交差エントロピー損失である。8つの商用マルチリンガル音声から合成した、品質でゲートされた1118のクロススクリプトペアで訓練した結果、LASEの残差ギャップは両コーパスでゼロに整合する(Delta = 0.013 Western、Delta = 0.026 Indian;いずれもブートストラップ95%信頼区間がゼロを含む)。さらに、2つのベースラインに対してクロススクリプト対フォール(床)マージンを 2.4〜2.7倍に増幅する。ECAPA+GRL のアブレーションでは、GRL目的がいずれのバックボーンも改善するが、WavLMの選択も寄与していることが示される。合成マルチ話者ダイアライゼーションでは、LASEはクロススクリプト話者リコールでECAPA-TDNNと同等(0.788 対 0.789)を達成し、訓練データは約100分の1で済む。r1チェックポイント、両コーパス、およびブートストラップ手順を公開する。