オムニリンガル SONAR: 跨言語・跨モーダルの文埋め込みで膨大な多言語テキストと音声を橋渡しする

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

OmniSONAR は、テキスト、音声、コード、数学式を共同で埋め込む単一の意味空間を作成し、極めてリソースの乏しい言語を含む数千の言語にまたがる。
学習は段階的な手順で行われ、最初に split-softmax 対照学習損失と合成難例を用いた LLM 初期化のエンコーダ-デコーダを用いて200言語の強固な基盤空間を確立し、次に二段階の教師-生徒エンコーダ蒸留により数千言語へ拡張する。
下流タスクで最先端の性能を発揮し、FLORES-200データセットで跨言語類似検索の誤差を半減させ、1,560言語の聖書ベンチマークでは誤差を15分の1に削減するとともに、従来の多言語翻訳モデルを上回る。
音声領域では、OmniSONAR は類似検索誤差を43%低減し、ゼロショット翻訳にも関わらず ASR データのみで訓練して、SeamlessM4T の音声からテキストへの品質の 97%に到達する。
英語専用の Spectrum エンコーダ-デコーダ LM を学習させることで、本手法は数千の言語と音声タスクへの高性能な転移を実現する。

note

日経XTECH

Dev.to

Dev.to

Dev.to