バスク方言リソースのカタログ:オンライン収集と標準語から方言への適応

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • 本論文は、データ不足に対処するために、現在オンラインで入手可能な方言データを集約し、さらに標準語から方言への適応を通じて補完することで、現代バスク方言のNLPリソースを体系的にカタログ化する。
  • リソースの種類として2つを区別する。すなわち、もともと方言で書かれたデータ(例:ニュース、ラジオのコンテンツ、インフォーマルなツイート、辞書/アトラス/文法書/動画のような参照資料)と、標準バスク語から方言へ適応されたデータである。
  • 手作業による適応について、著者らはXNLIのテスト分割を西部(Western)、中央(Central)、ナバラ=ラブルダ語(Navarrese-Lapurdian)の各方言へ人手で適応し、高品質な並列ゴールドの評価データセットを作成した。
  • 自動適応については、自動的に適応した物理常識データセット(BasPhyCowest)を評価し、ネイティブ話者による追加のレビューを行うことで、それが完全に手作業で作成した「シルバー」データ作成の代替になり得るかを判断する。