バスク方言リソースのカタログ：オンライン収集と標準語から方言への適応

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

共有:

要点

本論文は、データ不足に対処するために、現在オンラインで入手可能な方言データを集約し、さらに標準語から方言への適応を通じて補完することで、現代バスク方言のNLPリソースを体系的にカタログ化する。
リソースの種類として2つを区別する。すなわち、もともと方言で書かれたデータ（例：ニュース、ラジオのコンテンツ、インフォーマルなツイート、辞書／アトラス／文法書／動画のような参照資料）と、標準バスク語から方言へ適応されたデータである。
手作業による適応について、著者らはXNLIのテスト分割を西部（Western）、中央（Central）、ナバラ＝ラブルダ語（Navarrese-Lapurdian）の各方言へ人手で適応し、高品質な並列ゴールドの評価データセットを作成した。
自動適応については、自動的に適応した物理常識データセット（BasPhyCowest）を評価し、ネイティブ話者による追加のレビューを行うことで、それが完全に手作業で作成した「シルバー」データ作成の代替になり得るかを判断する。