ルーマニア語の神経文法誤り訂正

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、10k文ペアからなるルーマニア語の最初の文法誤り訂正(GEC)コーパスを提示し、非英語言語での資源不足に対応しています。
  • ドイツ語版ERRANT(ERRor ANnotation Toolkit)スコアラをルーマニア語向けに適応し、コーパス評価のための編集抽出を可能にしています。
  • 複数のニューラルモデルと事前学習戦略を検証した結果、低リソース環境でのGECにおいて有効であることが示され、小規模Transformerのベースラインを上回ります。
  • 最良の結果は、人工的に生成したデータで大規模Transformerを事前学習し、その後実コーパスで微調整する手法で得られ、F0.5は53.76(ベースライン44.38)でした。
  • POSタガーのみを必要とするため、人工データ生成手法は他言語にも拡張可能であることが提案されています。

要旨: 非英語言語における文法誤り訂正(GEC)のためのリソースは乏しい一方で、これらの言語で利用可能なスペルチェッカーは、ほとんどが単純な訂正や規則に限定されています。本論文では、ルーマニア語からなる最初のGECコーパスとして、文対(sentence pairs)1万組から成るコーパスを導入します。さらに、このコーパスを分析し、評価に必要な編集(edits)を抽出するために、ERRANT(ERRor ANnotation Toolkit)スコアラのドイツ語版をルーマニア語向けに適応しました。低リソース環境におけるGECに有効であることが示された、事前学習(pretraining)戦略とともに、複数のニューラルモデルを検討しました。ベースラインは、GECデータセットのみに基づいて学習した小規模なTransformerモデルであり(F0.5は44.38)、一方で最も性能の高いモデルは、人工的に生成されたデータで大規模なTransformerモデルを事前学習し、その後、実際のコーパスで微調整(finetuning)することで得られます(F0.5は53.76)。追加の学習例を生成するための提案手法は、POSタガーのみを必要とするため、任意の言語に容易に拡張して適用できます