ベンガル語の方言的バイアスをベンチマークする:RAGベースの翻訳と人手支援型RLAIFを統合したマルチステージ・フレームワーク

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、9つのベンガル語方言にわたるLLM性能のバイアスを定量化するためのマルチステージのベンチマーク手法を導入し、低リソースの地域バリエーションに対しては従来、測定アプローチが不足していた点に対処する。
  • RAGベースの翻訳パイプラインを用いて4,000件の方言別質問セットを作成し、LLM-as-a-judge(LLMを審判として用いる)手法により翻訳の忠実性を検証する。人手評価では、従来の翻訳品質指標よりも信頼性が高いことが示される。
  • 本研究では、マルチジャッジによる合意と人手によるフォールバック(68,395件の評価)を用いたRLAIFスタイルの評価により19のLLMをベンチマークし、ゴールドラベル付きの方言QAテストセットを作成する。
  • 結果として、方言に結びついた大きな性能低下が見られる(例:チッタゴンは5.44/10、タンガイルは7.68/10)。また、モデル規模を拡大してもバイアスが一貫して低減されるわけではない。
  • 本成果は、検証済みの翻訳品質評価手法、ベンチマークデータセット、そして安全性が重要なアプリケーション要件を念頭に置いたCritical Bias Sensitivity(CBS)指標を提供する。