RUMLEM：ロマンシュ語のための辞書ベースのレマタイザ

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロマンシュ語およびその主要な5つの地域変種に加えてRumantsch Grischunを対象に設計された辞書ベースのレマタイザRUMLEMを紹介する。
包括的でコミュニティ主導の形態素データベースに依拠することで、RUMLEMは典型的なロマンシュ語テキスト中の語の約77〜84%をカバーする。
この手法は変種を意識しており、変種ごとに個別のデータベースを用意することで、変種に基づく言語分類をサポートできる。
ロマンシュ語の3万件のテキストに対する実験により、RUMLEMは95%のケースで正しい変種を特定できることが示された。
さらに、概念実証（proof of concept）により、レマ化の出力がロマンシュ語と非ロマンシュ語の言語分類を支援できることが示される。

要旨: レマタイゼーション（語の屈折形を辞書形に写像する課題）は、多くのNLPアプリケーションの重要な構成要素である。本論文では、ロマンシュ語の主要な5つの変種と、超地域的な標準変種であるルマンチュ・グリシウン（Rumantsch Grischun）をカバーするレマタイザ RUMLEM を提示する。RUMLEM は、ロマンシュ語向けの包括的でコミュニティ主導の形態論的データベースに基づいており、その結果、典型的なロマンシュ語テキスト中の語の 77-84% をカバーすることが可能になる。ロマンシュ語の各変種ごとに専用のデータベースがあるため、RUMLEM の追加の応用として、変種を意識した言語分類（variety-aware language classification）が挙げられる。長さの異なるロマンシュ語テキスト 30,000 件での評価では、RUMLEM が 95% のケースで変種を正しく識別することが示される。さらに、概念実証により、レマタイザに基づくロマンシュ語と非ロマンシュ語の言語分類の実現可能性が示される。

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

ソフトバンクがAI搭載スマホ「Natural AI Phone」を独占販売

日経XTECH

フィジカルAIの次、「プロテインAI」

日経XTECH

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

GIGAZINE

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

Innovatopia

RUMLEM：ロマンシュ語のための辞書ベースのレマタイザ

要点

関連記事

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

ソフトバンクがAI搭載スマホ「Natural AI Phone」を独占販売

フィジカルAIの次、「プロテインAI」

自分のPCで簡単にAIを動かせる「Ollama」には多数の問題点があり、llama.cppを使った方が良いという意見

Log2Motion：スワイプの「疲れ」をAIが可視化—スマホUIを筋骨格シミュレーションで評価する新技術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer