LuxBorrow: Pompier から Pompjee へ、ルクセンブルク語の借用を辿る

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • LuxBorrow は、1999年から2025年までのルクセンブルク語(LU)ニュースを対象に、借用を先行させた分析を導入します。これは、文レベルの言語識別(LU/DE/FR/EN)とトークンレベルの借用解決、lemmatization、借用語登録、語形・正書法ルールを組み合わせたパイプラインを用います。
  • 研究は、ルクセンブルク語が全ドキュメントで基盤言語のままであることを示していますが、多言語の実践は蔓延しており、記事の77.1%が少なくとも1つの寄与言語を含み、65.4%が3つまたは4つの寄与言語を活用しています。
  • トークンレベルの適用は合計で25,444件に達し、主に形態的(63.8%)と正書法的(35.9%)で、小さな語彙成分(0.3%)を含み、最頻の規則は on->oun や eur->er のような正書法的変換です。
  • 著者らは、文書レベルの混成指標のみに頼らず、借用語トークン/タイプ比、借用項目に対する寄与言語のエントロピー、同化比率といった借用中心の評価指標を提案しています。
本文: arXiv:2603.10789v1 アナウンス種別: new 要旨: LuxBorrow を紹介します。LuxBorrow は 27年間(1999-2025)にわたるルクセンブルク語(LU)ニュースの借用を先行分析する研究で、RTL 記事 259,305 件と 43.7M トークンを対象とします。私たちのパイプラインは、文レベルの言語識別(LU/DE/FR/EN)と LU 文に限定したトークンレベルの借用解決、語形還元(lemmatization)、収集済み借用語登録、そして編纂された語形・正書法ルールを組み合わせています。経験的には LU は全ドキュメントにおいてマトリックス言語のままであり、同時に多言語の実践が蔓延しています。記事の 77.1% が少なくとも1つの寄与言語を含み、65.4% が3つまたは4つを使用しています。広がりが強さを意味するわけではなく、中位コード混合指数(CMI)は LU+1 で 3.90 から LU+3 で 7.00 へと上昇するのみで、均衡したバイリンガル文を示すものではなく、局所的な挿入を示します。領域と期間の要約は moderate だが持続的な混成を示し、CMI は 1999-2007 の 6.1 から 2020 年の 8.4 へと上昇します。トークンレベルの適用は合計 25,444 件で、混成的なプロファイルを示します。形態的 63.8%、正書法 35.9%、語彙 0.3% が含まれます。最も頻繁な個別ルールは正書法的で、on->oun や eur->er のようなものですが、形態は総体として支配的です。時系列的にはコードスイッチが強化され、形態学的に適合した借用語は小さな基盤から成長します。フランス語が圧倒的に適合項目を供給し、ドイツ語は適度に成長、英語はほとんど見られません。借用中心の評価を提唱し、借用トークン・タイプの割合、借用項目に対する寄与言語のエントロピー、同化比率を含む指標を、文書レベルの混成指標だけに頼るのではなく活用するべきだと述べます。