Multiple-Debias:多言語事前学習言語モデルのためのフルプロセス・デバイアス手法

arXiv cs.CL / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、性別、**人種**、**宗教**などのセンシティブ属性に関するバイアスを対象とした、多言語事前学習言語モデル向けのフルプロセス・デバイアス手法「Multiple-Debias」を提示する。
  • 多言語の反実仮想(カウンターファクチュアル)データ拡張と、多言語のSelf-Debiasを、前処理段階と後処理段階の両方に組み込み、さらにバイアス低減のためのパラメータ効率の良いファインチューニングも用いる。
  • 実験では、ドイツ語、スペイン語、中国語、日本語に対して拡張したCrowS-Pairsベンチマークを用い、3つのセンシティブ属性において有意なバイアス低減を報告している。
  • 結果は、多言語でのデバイアスが単一言語の手法よりも優れていること、またデバイアスの信号を言語間で転送することで公平性が向上することを示している。

要旨: 多言語事前学習言語モデル(MPLM)は、自然言語処理において欠かせないツールとなっています。しかし、それらはしばしば、性別、人種、宗教といったセンシティブ属性に関連するバイアスを示します。本論文では、複数言語にわたるこれらの問題に対処するための包括的な多言語デバイアス手法「Multiple-Debias」を提案します。前処理と後処理の両段階において、多言語の反実仮想データ拡張と多言語のSelf-Debiasを組み込み、さらにパラメータ効率のよいファインチューニングを併用することで、4言語における3つのセンシティブ属性すべてに関して、MPLMのバイアスを大幅に低減しました。また、CrowS-Pairsをドイツ語、スペイン語、中国語、日本語へ拡張し、性別・人種・宗教のバイアスに対して、私たちの全プロセスの多言語デバイアス手法を検証しました。実験の結果、(i) 多言語デバイアス手法は、バイアスの低減において単言語アプローチよりも効果的であり、そして (ii) 異なる言語からのデバイアス情報を統合することにより、MPLMの公平性が著しく改善されることが示されました。