要約:
機械翻訳(MT)の評価は指標を超え、より具体的な言語現象へと向かっています。
英語-中国語の語対では、受動文は言語の差異により構築・分布が異なるため、MTにおいて特別な注意が必要です。
本論文は、英語-中国語の五つの平行コーパスから抽出され、人間の翻訳に基づく構造ラベルで自動的に注釈付けされた双方向の多ドメイン受動文データセットと、手動で検証された注釈を含むテストセットを提案します。
データセットは73,965組の並列文ペア(英語語数2,358,731語、中国語字数3,498,229字)で構成されています。
本データセットを用いて最先端のオープンソースMTシステムを2つ、テストセットを用いて商用モデルを4つ評価します。
結果は、人間とは異なり、モデルはソース文の語調により影響を受けやすく、ソース言語全体の一般的な語調の使われ方よりもそちらに影響されやすく、いずれの方向に受動文を翻訳しても受動態を維持しがちであることを示しています。
しかし、モデルは中国語の受動文の低頻度および主に否定的な文脈についてある程度の知識を示し、英語から中国語への翻訳では人間の翻訳者との語調の一貫性が高くなる一方、中国語から英語への翻訳ではそうでない。
商用NMTモデルは指標評価でより高い得点を獲得しましたが、LLMsは多様な代替翻訳を活用する能力がより高いことを示しました。
データセットと注釈スクリプトは、要望に応じて共有されます。
機械翻訳のための双方向の英語・中国語受動文データセット
arXiv cs.CL / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 論文では、声に関連する語法現象の機械翻訳評価を強化することを目的とした、英語・中国語の受動文の双方向・多領域データセットを提案している。
- 本データセットは、5つの中国語-英語コーパスから得られた73,965組の平行文ペア(英語の語数2,358,731語、中国語の字数3,498,229字)を含み、自動構造ラベル付与と手動検証済みのテストセットを備える。
- 本研究では、2つのオープンソースMTシステムと4つの商用モデルをベンチマークしており、モデルは元の受動態を保持する傾向があり、方向を跨いで元の声の用法の影響を受けることが示された。
- 商用NMTモデルは標準指標で優位である一方、LLMはより多様な代替翻訳を提供することが分かった。また、データセットと注釈スクリプトは要望があれば共有される予定である。