AI Navigate

[D] 専門的なMQM注釈付きMTデータセットの公開(16言語ペア、48名のアノテータ)

Reddit r/MachineLearning / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 専門的なMQM注釈付きMTデータセットのオープンソース化を報告しており、16言語ペアにまたがる362の翻訳セグメントと、48名のクラウドソースではない専門言語学者を特徴とします。
  • カテゴリ、重大度、スパンを含む完全なMQMエラー注釈を使用しており、セグメントごとに複数のアノテータを含めることで、アノテータ間一致分析を可能にしています。
  • 手法はWMTガイドラインに従い、アノテータ間一致の Kendall のτ を0.317に達成し、典型的なWMTキャンペーンのおよそ2.6倍の水準に相当する成果を示しており、一貫したアノテータ訓練の価値を強調しています。
  • データセットは Hugging Face(alconost/mqm-translation-gold)にホストされており、アノテーション手順に関する質問やフィードバックを歓迎するオープンな案内が設けられています。

みなさん、こんにちは、

私たちは翻訳品質評価の作業を続けており、注釈付きデータセットの1つをオープンソース化することにしました。世の中には、クラウドソースされた(ノイズが多い)注釈か、料金のかかる有料制限のいずれかです。私たちは適切な専門言語学者による注釈を付けたものを公開したいと考えました。

内容は以下の通り:

  • 362件の翻訳セグメント
  • 16言語ペア
  • 48人の専門言語学者(クラウドソースではない)
  • 完全なMQMエラー注釈(カテゴリ、重大度、スパン)
  • IAA分析のため、各セグメントにつき複数の注釈者

この方法論はWMTのガイドラインに従います - 同じエラー分類、同じ重大度レベル。評価者間の一致で Kendall の τ = 0.317 を達成しました。これは典型的なWMTキャンペーンが報告する値の約2.6倍に相当します。私たちが特別だと言うつもりはありませんが、一貫した注釈者トレーニングが重要な影響を与えるようです。

データセット: https://huggingface.co/datasets/alconost/mqm-translation-gold

注釈プロセスや方法論について質問があれば喜んでお答えします。データに問題を見つけた方がいれば、私たちは本当に知りたいです。

投稿者 /u/ritis88
[リンク] [コメント]