みなさん、こんにちは、
私たちは翻訳品質評価の作業を続けており、注釈付きデータセットの1つをオープンソース化することにしました。世の中には、クラウドソースされた(ノイズが多い)注釈か、料金のかかる有料制限のいずれかです。私たちは適切な専門言語学者による注釈を付けたものを公開したいと考えました。
内容は以下の通り:
- 362件の翻訳セグメント
- 16言語ペア
- 48人の専門言語学者(クラウドソースではない)
- 完全なMQMエラー注釈(カテゴリ、重大度、スパン)
- IAA分析のため、各セグメントにつき複数の注釈者
この方法論はWMTのガイドラインに従います - 同じエラー分類、同じ重大度レベル。評価者間の一致で Kendall の τ = 0.317 を達成しました。これは典型的なWMTキャンペーンが報告する値の約2.6倍に相当します。私たちが特別だと言うつもりはありませんが、一貫した注釈者トレーニングが重要な影響を与えるようです。
データセット: https://huggingface.co/datasets/alconost/mqm-translation-gold
注釈プロセスや方法論について質問があれば喜んでお答えします。データに問題を見つけた方がいれば、私たちは本当に知りたいです。
[リンク] [コメント]