広告

LombardoGraphia:ロンバルド語正書法バリアントの自動分類

arXiv cs.CL / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロンバルド語において統一された正書法標準が欠如していることを指摘し、複数の正書法バリアントがNLPデータ作成やモデル学習を複雑にしている点を述べる。
  • それに対し、本研究は正書法解析に特化して設計された、9種類の正書法バリアントにタグ付けされたロンバルド語Wikipediaサンプル11,186件からなる厳選コーパス「LombardoGraphia」を導入する。
  • 著者らは、伝統的およびニューラルの両方の分類アプローチを提案・評価し、異なる特徴量と符号化レベルを用いて24のモデルを学習する。
  • 最良のモデルでは全体精度96.06%、平均クラス精度85.78%を達成するが、データの不均衡により少数クラスの性能には限界がある。
  • 本研究は、ロンバルド語のような十分に資源が整っていない言語に対する、多様性を考慮したNLPリソース開発のための基盤となるインフラを提供することを目指す。

要旨: 北イタリアおよびスイス南部で約380万人が話す、十分な資源がない言語変種であるロンバルド語(Lombard)には統一された表記体系がありません。複数の表記体系が存在するため、NLPの資源開発やモデル学習に課題が生じます。本論文では、ロンバルド語の表記体系を自動的に分類する最初の研究と、9つの表記バリアントにまたがってタグ付けされた11,186件のロンバルド語Wikipediaサンプルからなる、キュレーション済みコーパスであるLombardoGraphia、および自動表記体系分類のためのモデルを提示します。私たちはデータセットをキュレーションし、表記分析に適したテキストが得られるように、元のWikipediaコンテンツを処理・フィルタリングします。さまざまな特徴とエンコーディングレベルを用いて、24の従来型およびニューラルの分類モデルを学習します。最良のモデルでは、全体の精度と平均クラス精度として、それぞれ96.06%および85.78%を達成しましたが、データの不均衡により少数クラスでの性能は依然として難しい状況です。本研究は、ロンバルド語向けの多様性を考慮したNLP資源を構築するための重要な基盤を提供します。

広告