推論段階におけるプライバシー保護機械翻訳へ: 新しい課題とベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論は、モデル推論時にユーザのテキストを保護するプライバシー保護機械翻訳(PPMT)を提案し、オンライン翻訳サービスにおけるプライバシー漏洩へ対処します。
  • MT推論におけるプライバシー保護の定義されたタスク、専用の評価データセット、指標、ベンチマークが欠如している点を指摘します。
  • 著者らは3つのベンチマークデータセットを構築し、対応する評価指標を定義し、このタスクの出発点としてベースラインのベンチマーク手法を提案します。
  • テキスト中の固有表現のプライバシー保護に焦点を当てることで、機械翻訳におけるプライバシー保護の堅固な基盤を提供することを目的としています。

要旨:現在のオンライン翻訳サービスは、ユーザーのテキストをクラウドサーバへ送信する必要があり、テキストに機微な情報が含まれる場合にプライバシー漏洩のリスクを伴います。
このリスクは、プライバシーに敏感なシナリオでのオンライン翻訳サービスの適用を妨げます。
オンライン翻訳サービスのこのリスクを緩和する一つの方法は、翻訳モデルの推論段階を対象としたプライバシー保護機構を導入することです。
しかし、テキスト分類や要約といったNLPのサブ分野と比較して、機械翻訳研究コミュニティは推論段階におけるプライバシー保護の探索が限られています。
推論段階における明確に定義されたプライバシー保護タスク、専用の評価データセットと指標、および参照ベンチマーク手法は存在しません。
これらの要素の欠如は、この方向性の研究者の深い探究を深刻に制約しています。
ギャップを埋めるため、本論文は新規の「プライバシー保護機械翻訳」(PPMT)タスクを提案し、モデル推論段階でのテキストの個人情報を保護することを目的とします。
このタスクのために、3つのベンチマークテストデータセットを構築し、対応する評価指標を設計し、このタスクの出発点として一連のベンチマーク手法を提案しました。
プライバシーの定義は複雑で多様です。
固有表現には多くの個人情報や商業秘密が含まれることが多いため、テキスト中の固有表現のプライバシー保護のみに焦点を当てる研究にしました。
本研究は、機械翻訳におけるプライバシー保護問題に新たな視点と堅固な基盤を提供することを期待しています。

返却形式: {"translated": "翻訳されたHTML"}