言語のギャップを埋める:事前学習におけるクロスリンガル・マッピングと、多言語LLMの性能向上のためのデータセット
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多言語LLMがクロスリンガル課題で十分に性能を発揮できない主因として、データの高資源/低資源間の不均衡と、事前学習時における単言語バイアスを挙げている。
- その解決として、事前学習に「クロスリンガル・マッピング課題」を追加し、モデルの埋め込み空間上で言語間の双方向マッピングを行うことで、単言語の流暢さを損なわずにアラインメントを改善することを提案する。
- クロスリンガル整合性を信頼性よく測定するために、ラベル付きデータや並行データが限られている場合でも機能する「言語アラインメント係数(Language Alignment Coefficient)」を導入する。
- 機械翻訳、クロスリンガルNLU、クロスリンガル問合せ応答に関する実験では、強力な多言語ベースラインと比べて大幅な改善が報告されており、MTでは最大+11.9 BLEU、CLQAでは+6.72 BERTScore-Precisionを含む。
- 総じて、本研究は、クロスリンガルの目的を事前学習に直接組み込むことが、複数のクロスリンガル・ベンチマークにわたって多言語LLMの性能を高める効果的な方針であることを示唆している。




