翻訳課題の難易度への合理的な反応としての翻訳語
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、翻訳語が翻訳タスクの認知的負荷の一部を反映しており、単なる生産傾向や社会文化的要因だけではないと主張する。
- それは、ソーステキストと跨言語転送成分を含む定量的なタスク難易度指標を用いて、情報理論的指標(LLMのsurprisalに基づく)と、構文的・意味的特徴を補足的に用いることで、観測可能な翻訳語を予測する。
- 書き言葉と話し言葉のサブコーパスを含む英語-ドイツ語の双方向コーパスを用いると、跨言語転送難易度がソーステキストの複雑さよりも翻訳語を説明することが多く、特に英語からドイツ語への翻訳で顕著である。
- 書き言葉モードでは、情報理論的指標は伝統的特徴と同等か、それ以上の性能を示す一方、話し言葉モードでは利点を提供しない。ソーステキストの統語的複雑さと翻訳解のエントロピーが、言語ペアとモードを横断して最も強力な予測因子として現れる。
本文: arXiv:2603.12050v1 アナウンス種別: 新規
要旨: 翻訳は、ターゲット言語で元々作成されたテキストと体系的に逸脱する現象であり、一般に『翻訳語』として広く言及されている。この現象は、生産傾向(例:干渉、単純化)、社会・文化的変数、および言語ペア効果に起因するとされてきたが、統一的な説明はまだ欠けている。我々は、翻訳語が翻訳タスク自体に内在する認知的負荷を反映していると提案する。我々は、観測可能な翻訳語が、翻訳タスクの難易度を定量的に測る指標から予測可能かを検証する。翻訳語は、自動分類器によって生成されるセグメントレベルの翻訳性スコアとして操作的に定義される。翻訳タスクの難易度は、ソーステキストと跨言語転送成分を含むと概念化され、主にLLMのsurprisalに基づく情報理論的指標を通じて定量化され、確立された統語的・意味的代替指標が補完的に用いられる。我々は、書き言葉と話し言葉のサブコーパスを含む英語-ドイツ語の双方向コーパスを使用する。結果は、翻訳語が翻訳タスクの難易度によって部分的に説明できることを示しており、特に英語からドイツ語への翻訳で顕著である。ほとんどの実験では、跨言語転送難易度がソーステキストの複雑さよりも寄与が大きい。書き言葉モードでは、情報理論的指標は従来の特徴に匹敵するか、あるいはそれを上回るが、話し言葉モードでは利点を提供しない。ソーステキストの統語的複雑さと翻訳解のエントロピーが、言語対とモードを横断して最も強力な翻訳語予測因子として現れる。