要旨: 本論文は、欧州議会の元の演説およびそれらの翻訳や通訳を含む、英独双方向のEPIC-UdS(話し言葉)とEuroParl-UdS(書き言葉)コーパスの更新統合版を紹介する。この新版は、これまでの利用で発見されたメタデータやテキストの誤りを修正し、内容を洗練させ、言語注釈を更新し、語彙アライメントや語レベルの驚き度指標といった新しい層を加えている。この統合資源は、情報理論的アプローチを用いた言語変異の研究、特に書き言葉と話し言葉の比較分析、話し言葉における非流暢性の調査、従来の翻訳語研究(並列分析(源言語対訳語)や類似分析(原文対翻訳文)を含む)を支援することを目的としている。本論文では、本リリースで導入された更新内容の概要、これまでのコーパスに基づく研究成果の要約、及び新たな例示的研究を提示する。この研究は、再構築した話し言葉データの整合性を検証し、基底および微調整済みGPT-2並びに機械翻訳モデルから導出された確率的指標を用いて、通訳におけるフィラーワード予測タスクを評価している。
EPIC-EuroParl-UdS: 翻訳と言語通訳に関する情報理論的視点
arXiv cs.CL / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、EPIC-UdS(話し言葉)およびEuroParl-UdS(書き言葉)の英→独双方向コーパスの更新および統合版を提示しており、欧州議会の元の演説とその翻訳・通訳を含む。
- 以前のメタデータとテキストの誤りを修正し、言語注釈を強化し、語彙アライメントや語レベルの驚き度指標などの新しい層を導入している。
- この統合コーパスは、話し言葉と書き言葉の比較研究、話し言葉の非流暢性分析、および翻訳語(翻訳特有の言語特徴)研究を含む、情報理論的言語変異解析の研究支援を目的としている。
- 新たな研究では、構築し直した話し言葉データの検証を行い、GPT-2および機械翻訳モデルに基づく確率的指標が通訳時のフィラーワード(埋め草語)予測において有効であることを評価している。
- 本資源と研究成果は、計算的かつ確率的フレームワークを通じて翻訳・通訳研究の発展を目指している。