アブストラクト: 別の言語で音声を生成しつつ話者の声のアイデンティティを保持することは、特に科学的コミュニケーションのような専門分野において、音声言語技術における基本的な課題である。本論文では、国際音声翻訳会議(IWSLT 2026)におけるCross-Lingual Voice Cloning共有タスクへのシステム提出を通じて、この課題に取り組む。まず、アラビア語、中国語、フランス語の科学文テキストに対するクロスリンガル音声生成のために、最先端のいくつかのボイス・クローニング・モデルを評価する。次に、OmniVoice基盤モデルに基づくボイス・クローニング・システムを構築する。ACL 60/60コーパスからのマルチモデル・アンサンブル蒸留によるデータ拡張を用いる。この合成データを微調整(fine-tuning)に使用した場合の効果を調査し、話者類似性を保持しながら、言語をまたいで明瞭性(WERおよびCER)の一貫した改善が得られることを示す。
One Voice, Many Tongues:科学音声のためのクロスリンガル・ボイス・クローニング
arXiv cs.CL / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、話者の声の同一性を保ちながら別言語の音声を生成するという課題に取り組み、特に科学コミュニケーションを対象にしています。
- アラビア語・中国語・フランス語での科学テキストのクロスリンガル生成に向けて、主要な音声クローニングモデルを評価します。
- 著者らは基盤モデルであるOmniVoiceを用いてクロスリンガルのボイス・クローニングシステムを構築し、ACL 60/60コーパスからのマルチモデル・アンサンブル蒸留によるデータ拡張を行います。
- 合成した拡張データで微調整すると、(WERとCERで測定される)明瞭性が言語横断で一貫して改善しつつ、話者の類似性も維持されることを示しています。




