機械翻訳の下でテキスト類似度は不変か? 証拠:政治マニフェスト・コーパスに基づく研究

arXiv cs.CL / 2026/5/4

📰 ニュースModels & Research

要点

  • 本研究は、EUのeTranslationサービスで28言語の政治政党プラットフォーム(2,800件超)を英語に機械翻訳したデータを用い、段落埋め込み間の余弦類似度が翻訳後もどの程度不変かを検証します。
  • 翻訳による意味の変化を直接測るのではなく、複数の埋め込みモデル間でのペア類似度関係の安定性を評価し、元言語テキストにおけるモデル間の不一致を用いて不変性の閾値を校正します。
  • 翻訳と埋め込み選択の相互作用に関する4つの仮説を、言語ごとに非劣性検定として定式化し、言語別の判定(どちらとも言えないケースを含む)を出します。
  • 結果は、翻訳が意味構造を明確に保つ言語と、明確に劣化(歪み)させる言語とを区別し、証拠が足りず結論できない言語も分けて示します。
  • この枠組みは特定のコーパスや翻訳/埋め込みのパイプラインに依存しない設計で、下流タスクにも自然に拡張できるとされています。
  • データへの適用では、10言語が翻訳不変を示し、4言語では検出可能な歪みが確認されたと報告されています。

概要: 段落埋め込み間のコサイン類似度が機械翻訳に対してどの程度不変(不変性)であるかを、EUのeTranslationサービスを通じて英語に翻訳された28か国語の、2,800件超の政治党の綱領を収録するManifesto Corpusを用いて調査します。翻訳によって生じる意味の変化を直接測定するのではなく、埋め込みモデル間でのペアワイズ類似度関係の安定性を測定し、さらに元言語のテキストに関するモデル間の不一致を、較正された不変性の閾値として用います。これにより、翻訳が埋め込みの選択とどのように相互作用するかに関する4つの仮説について、言語ごとの非劣性(non-inferiority)検定を導出します。その判定は、翻訳が意味構造を実証的に保持する言語と、翻訳がそれを実証的に劣化させる言語、そして利用可能な証拠だけではその問いが解決できない言語とを区別します。この枠組みはコーパスやパイプラインに依存せず、下流タスクへ自然に拡張できます。私たちのデータに適用したところ、翻訳不変性を持つ10言語と、検出可能な歪み(distortion)を持つ4言語が特定されました。