すべての言語は重要:多言語RAGにおける言語バイアスの理解と緩和

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

要点

  • この論文は、多言語RAG(mRAG)システムが再ランキング段階で言語バイアスを示し、英語やクエリの母語の言語の情報を他言語より優先しがちなことを明らかにしています。
  • 「oracle evidence(オラクル根拠)」を推定する分析により、既存のリランカーと到達可能な理論上の上限との間に大きな性能差があることを定量化しています。
  • 最適な回答には複数言語に散らばった根拠が必要なのに、現行システムは「回答に重要な」ドキュメントを体系的に抑制してしまうという、重要な分布の不整合を特定しています。
  • これを解決するために、LAURA(Language-Agnostic Utility-driven Reranker Alignment)を提案し、多言語の根拠ランキングを下流の生成の有用性に整合させます。
  • 複数言語および複数の生成モデルでの実験により、LAURAが言語バイアスを低減し、mRAGの性能を一貫して改善することが示されています。