要旨:Error Span Detection (ESD) は、機械翻訳 (MT) の評価における重要なサブタスクであり、翻訳エラーの位置と重大さを特定することを目的としています。人間が注釈を付けたデータでのファインチューニングはESDの性能を向上させますが、そのようなデータの取得は費用がかかり、アノテータ間の不整合が生じやすいです。これに対処するため、Minimum Bayes Risk (MBR) デコードに基づく新しい自己進化フレームワーク「Iterative MBR Distillation for ESD」(ESDのための反復MBR蒸留)を提案します。市販のLLMを活用して疑似ラベルを生成することで、人間の注釈への依存を排除します。WMT Metrics Shared Task データセットを用いた広範な実験は、これらの自己生成された疑似ラベルのみで訓練されたモデルが、システムレベルおよびスパンレベルで、未適応のベースモデルおよび人間の注釈で訓練された教師ありベースラインの両方を上回ることを示しています。一方、文レベルの性能は競争力を維持します。
人間の注釈は必要か?機械翻訳におけるエラースパン検出のための反復的MBR蒸留
arXiv cs.CL / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は、エラースパン検出(ESD)のための反復的MBR蒸留を提案する。これは人間の注釈を必要としない自己進化型フレームワークで、最小ベイズリスクデコードを用いて翻訳エラーを特定する。
- 市販の大規模言語モデルを用いて疑似ラベルを生成し、高価な人間の注釈データの必要性を排除する。
- WMT Metrics Shared Taskデータセットでの実験は、これらの自分で生成したラベルだけで訓練したモデルが、未適応のベースラインおよび人間データで訓練された教師ありモデルを、システムレベルおよびスパンレベルで上回り、文レベルでも競争力を維持することを示した。
- 提案手法は、注釈要件を削減し、スパンレベルのエラー検出を改善することで、機械翻訳評価のスケーラブルな代替手段を提供する。


