RoLegalGEC:ルーマニア語の法務領域向け文法誤り検出・修正データセット

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文では、法務領域の文章に対する文法誤りの検出と修正のための、ルーマニア語の並列データセットRoLegalGECを提案しています。
  • RoLegalGECは、現実的な法務文書から集めた350,000件の誤り例と注釈を含み、ルーマニア語における手作業ラベル付きデータ不足の課題に対応しています。
  • 著者らは、知識蒸留トランスフォーマーや、誤り検出に用いるシーケンスタギング手法など、同データセットを活用した複数のニューラル手法を検証し、検出と修正の両方に取り組んでいます。
  • 修正については、注釈付きデータを性能へ結び付けるため、複数の事前学習済みtext-to-textトランスフォーマーモデルを評価しています。
  • 本研究は、ルーマニア語の研究資源を拡充し、法務領域の言語誤り修正に関するさらなる研究を促進することを目的としています。