概要: 言語横断テキスト単純化(CLTS)は、翻訳とともに言語的複雑性にも同時に対処することで、コンテンツを言語をまたいでより利用しやすくすることを目指します。本研究では、大規模言語モデル(LLM)を用い、英語とフランス語の間のCLTSに対する異なるプロンプト戦略の有効性を検証します。検討するのは5つの異なるプロンプト手法です。1つは、LLMに「翻訳と単純化を同時に行う」よう直接指示するプロンプトです。次に、単一のプロンプト内で「翻訳してから単純化」または「単純化してから翻訳」を行う2つの構成(Composition)アプローチです。さらに、同じ操作を別々で連続したプロンプトで実行する2つの分解(decomposition)アプローチです。これらの手法は、ジャンルの異なる5つの多様なコーパス(Wikipediaおよび医療テキスト)を対象に、最先端の7つのLLMで評価します。出力品質は、自動指標、包括的な言語的特徴の分析、そして単純さと意味の保存に関する人手評価を含む多面的評価フレームワークによって評価されます。結果として、直接プロンプトは意味の忠実性を示すBLEUスコアで一貫して最も高いことが分かる一方で、言語的特徴によって測定される単純さでは、Translate-then-Simplify(翻訳してから単純化)アプローチが最も高いことが示されました。
最初に翻訳するか単純化するか:英語とフランス語におけるクロスリンガル文書単純化の分析
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLMを用いたクロスリンガル文書単純化(CLTS)において、翻訳と単純化の両方に対するプロンプト戦略の違いが出力へ与える影響を、英語とフランス語間で検討します。
- 比較対象は5種類のプロンプト方式で、翻訳と単純化を同時に指示するダイレクト、1つのプロンプト内で順序を入れ替えるコンポジション(translate-then-simplify / simplify-then-translate)、同じ処理を連続した別プロンプトに分けるデコンポジションの2系統です。
- Wikipediaや医療テキストを含むジャンル多様な5つのコーパスで、最先端の7つのLLMを用いて評価し、自動指標・言語的特徴の分析・人手評価を組み合わせます。
- 結果として意味の忠実性はダイレクトプロンプトが最も高い(BLEUが最高)一方で、単純さはtranslate-then-simplify方式が言語的特徴の観点で最も高い、というトレードオフが示されます。




