XQ-MEval：翻訳メトリクスのベンチマークのための言語横断パラレル品質データセット

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、翻訳評価メトリクスのスコアを言語ごとに単純平均する運用が、同等の品質の翻訳でも言語によって異なるスコアが付く「クロスリンガル・スコアリングバイアス」のために誤解を招きうると主張しています。
それに対応するため、XQ-MEvalという9つの翻訳方向をカバーする半自動構築データセットを提案しており、MQM定義の誤りをゴールド翻訳に自動注入し、母語話者によるフィルタで信頼性を高めつつ、品質を制御できる疑似翻訳を生成します。
XQ-MEvalは、ソース・リファレンス・疑似翻訳のトリプレット（3点セット）としてデータを構成し、さまざまな翻訳メトリクスが品質をどれだけ適切に評価できるかをベンチマークします。
9つの代表的メトリクスを用いた実験では、メトリクスの平均値と人間の判断との間に不整合が見られ、クロスリンガル・スコアリングバイアスの実証的な証拠が示されています。
著者らは最後に、XQ-MEvalに基づく正規化手法を提案し、言語間でスコア分布を揃えることで、多言語評価の公平性と信頼性を高めることを目指しています。