要旨:現在のオンライン翻訳サービスは、ユーザーのテキストをクラウドサーバへ送信する必要があり、テキストに機微な情報が含まれる場合にプライバシー漏洩のリスクを伴います。
このリスクは、プライバシーに敏感なシナリオでのオンライン翻訳サービスの適用を妨げます。
オンライン翻訳サービスのこのリスクを緩和する一つの方法は、翻訳モデルの推論段階を対象としたプライバシー保護機構を導入することです。
しかし、テキスト分類や要約といったNLPのサブ分野と比較して、機械翻訳研究コミュニティは推論段階におけるプライバシー保護の探索が限られています。
推論段階における明確に定義されたプライバシー保護タスク、専用の評価データセットと指標、および参照ベンチマーク手法は存在しません。
これらの要素の欠如は、この方向性の研究者の深い探究を深刻に制約しています。
ギャップを埋めるため、本論文は新規の「プライバシー保護機械翻訳」(PPMT)タスクを提案し、モデル推論段階でのテキストの個人情報を保護することを目的とします。
このタスクのために、3つのベンチマークテストデータセットを構築し、対応する評価指標を設計し、このタスクの出発点として一連のベンチマーク手法を提案しました。
プライバシーの定義は複雑で多様です。
固有表現には多くの個人情報や商業秘密が含まれることが多いため、テキスト中の固有表現のプライバシー保護のみに焦点を当てる研究にしました。
本研究は、機械翻訳におけるプライバシー保護問題に新たな視点と堅固な基盤を提供することを期待しています。
返却形式: {"translated": "翻訳されたHTML"}