共有マルチリンガル表現学習における並列データの有用性の限定について
arXiv cs.CL / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、並列コーパス(翻訳された文対)が、共有マルチリンガル表現を学習する際のクロスリンガルなアラインメントを意味のある形で改善するかどうかを調査する。
- 並列データの割合を変えた実験により、複数の評価手法にわたってアラインメントへの効果が小さいことが示される。
- 並列データの利点は、収束前の表現共有をわずかに加速する可能性がある「初期の事前学習」に限られているように見える。
- 本研究では、モデルのレベルでの変化として、並列データにより言語固有のニューロンの数が減少し得ることも報告されている。一方で、並列入力がない場合でも全体のクロスリンガル・アラインメント水準は同程度である。
- 総合すると、本結果は、明示的な並列シグナルによる教師ありの監督に頼らなくても、クロスリンガルなアラインメントが同程度の水準で生じ得ることを示唆している。




