XMLをそのまま使う: 結合翻訳とラベル投影の再検討

arXiv cs.CL / 2026/3/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LabelPigeon は XML タグを介して翻訳とラベル投影を共同で実行するフレームワークを導入し、これらのステップを別々に扱うのが一般的であるという見解に挑戦します。
  • 著者らはラベル投影の直接評価スキームを設計し、LabelPigeonがベースラインを上回り、11言語で翻訳品質を向上させることを示しています。
  • 203言語にわたる翻訳品質の向上を報告し、追加のファインチューニングが注釈の複雑さに関係なく一貫した改善を生むことを見出しています。
  • 27言語と3つの下流タスクにおいて、言語間転移の顕著な利得を観測し、NERで最大で+39.9のF1を達成することもあります。
  • 総じて、本研究は XML タグ付きラベル投影が翻訳品質を損なうことなく、効果的かつ効率的なラベル転送を提供することを示しています。
ラベル投影は、クロスリンガル転送の効果的な手法であり、高リソース言語から低リソース言語へ、スパン注釈付きデータセットを拡張します。多くのアプローチはラベル投影を機械翻訳の後に別のステップとして実施します。また、二つを組み合わせる従来の研究は翻訳品質の低下を報告してきました。 この主張を、XMLタグを介して翻訳とラベル投影を同時に実行する新しいフレームワーク LabelPigeon を用いて再評価します。 ラベル投影の直接評価スキームを設計し、LabelPigeonがベースラインを上回り、11言語で翻訳品質を実際に改善することを示しました。 さらに、203言語とさまざまなアノテーションの複雑さにわたって翻訳品質を評価し、追加のファインチューニングに起因する一貫した改善を見出しました。 最後に、27言語と3つの下流タスクにおいて、比較可能な研究を上回るクロスリンガルトランスファーの顕著な利得を報告し、NERでは最大でF1が+39.9に達します。 全体として、XMLタグ付きラベル投影は翻訳品質を損なうことなく、効果的で効率的なラベル転送を提供することを示しています。