言語のギャップを埋める:事前学習におけるクロスリンガル・マッピングと、多言語LLMの性能向上のためのデータセット

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語LLMがクロスリンガル課題で十分に性能を発揮できない主因として、データの高資源/低資源間の不均衡と、事前学習時における単言語バイアスを挙げている。
  • その解決として、事前学習に「クロスリンガル・マッピング課題」を追加し、モデルの埋め込み空間上で言語間の双方向マッピングを行うことで、単言語の流暢さを損なわずにアラインメントを改善することを提案する。
  • クロスリンガル整合性を信頼性よく測定するために、ラベル付きデータや並行データが限られている場合でも機能する「言語アラインメント係数(Language Alignment Coefficient)」を導入する。
  • 機械翻訳、クロスリンガルNLU、クロスリンガル問合せ応答に関する実験では、強力な多言語ベースラインと比べて大幅な改善が報告されており、MTでは最大+11.9 BLEU、CLQAでは+6.72 BERTScore-Precisionを含む。
  • 総じて、本研究は、クロスリンガルの目的を事前学習に直接組み込むことが、複数のクロスリンガル・ベンチマークにわたって多言語LLMの性能を高める効果的な方針であることを示唆している。

Abstract

多言語大規模言語モデル(LLM)は、高資源言語と低資源言語の間にデータ不均衡があること、また事前学習における単一言語バイアスがあることにより、言語横断タスクが苦手です。バイリンガル微調整や対照的アラインメントといった既存手法は、言語横断性能を向上させることができますが、多くの場合、膨大な並列データを必要とするか、あるいは不安定性に悩まされます。これらの課題に対処するため、事前学習フェーズ中に言語横断マッピング課題(Cross-Lingual Mapping Task)を導入し、単一言語の流暢さを損なうことなく言語横断アラインメントを強化します。提案手法では、LLMの埋め込み空間内で言語を双方向にマッピングし、言語生成と理解の両方を改善します。さらに、限られたデータ状況でも言語横断の一貫性を頑健に定量化するための「言語アラインメント係数(Language Alignment Coefficient)」を提案します。機械翻訳(MT)、言語横断自然言語理解(CLNLU)、言語横断質問応答(CLQA)に関する実験結果では、本モデルが強力な多言語ベースラインに対して、MTで最大11.9 BLEUポイント、CLQAでBERTScore-Precisionが6.72ポイント、CLNLUの精度で5%以上の向上を達成することが示されました。これらの結果は、多言語LLMを改善するために、事前学習へ言語横断の目的を組み込む可能性を示しています。