要旨: レマタイゼーション(語の屈折形を辞書形に写像する課題)は、多くのNLPアプリケーションの重要な構成要素である。本論文では、ロマンシュ語の主要な5つの変種と、超地域的な標準変種であるルマンチュ・グリシウン(Rumantsch Grischun)をカバーするレマタイザ RUMLEM を提示する。RUMLEM は、ロマンシュ語向けの包括的でコミュニティ主導の形態論的データベースに基づいており、その結果、典型的なロマンシュ語テキスト中の語の 77-84% をカバーすることが可能になる。ロマンシュ語の各変種ごとに専用のデータベースがあるため、RUMLEM の追加の応用として、変種を意識した言語分類(variety-aware language classification)が挙げられる。長さの異なるロマンシュ語テキスト 30,000 件での評価では、RUMLEM が 95% のケースで変種を正しく識別することが示される。さらに、概念実証により、レマタイザに基づくロマンシュ語と非ロマンシュ語の言語分類の実現可能性が示される。
RUMLEM:ロマンシュ語のための辞書ベースのレマタイザ
arXiv cs.CL / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロマンシュ語およびその主要な5つの地域変種に加えてRumantsch Grischunを対象に設計された辞書ベースのレマタイザRUMLEMを紹介する。
- 包括的でコミュニティ主導の形態素データベースに依拠することで、RUMLEMは典型的なロマンシュ語テキスト中の語の約77〜84%をカバーする。
- この手法は変種を意識しており、変種ごとに個別のデータベースを用意することで、変種に基づく言語分類をサポートできる。
- ロマンシュ語の3万件のテキストに対する実験により、RUMLEMは95%のケースで正しい変種を特定できることが示された。
- さらに、概念実証(proof of concept)により、レマ化の出力がロマンシュ語と非ロマンシュ語の言語分類を支援できることが示される。

