ViDia2Std: 低資源ベトナム語方言から標準語への翻訳のための並列コーパスと手法

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ViDia2Std は、中央部・南部の方言を含む非標準北部方言を含む63省すべてをカバーする、方言から標準ベトナム語への翻訳のための最初の手動注釈付き並列コーパスとして紹介される。
データセットは、実世界のFacebookコメントからの13,000以上の文ペアで構成され、3つの方言地域すべてのネイティブスピーカーによって注釈されており、意味マッピングの一致指標によると北部86%、中央部82%、南部85%を報告している。
ベンチマーク結果は、mBART-large-50 が ViDia2Std で最高の性能を示す（BLEU 0.8166、ROUGE-L 0.9384、METEOR 0.8925）、一方 ViT5-base はより少ないパラメータで競争力のある結果を提供する。
本研究は、方言正規化が下流のNLPタスクを大幅に改善することを示しており、堅牢なベトナム語NLPシステムを構築するためには方言対応のリソースが必要であることを強調している。

ベトナム語は広範な方言変異を示し、標準ベトナム語を主に学習したNLPシステムにとって課題をもたらす。こうしたシステムは、特に中央部および南部の取り残された地域の方言入力に対してはしばしば性能が低下する。方言正規化に関するこれまでの研究は、合成データを用いた中央部から北部方言への移行に狭く焦点をあて、方言の多様性が限られていた。これらの取り組みは南部の方言や北部の地域内の変種を除外している。私たちは ViDia2Std を導入します。63省すべてを対象とする方言から標準ベトナム語への翻訳のための最初の手動注釈付き並列コーパスです。従来のデータセットとは異なり、ViDia2Std は中央部、南部、非標準北部地域の多様な方言を含み、既存のリソースにしばしば欠けていた、これまでで最も方言を包摂的なコーパスとなっています。データセットは実世界のFacebookコメントから収集された1万3千以上の文ペアで構成され、3つの方言地域のネイティブスピーカーによって注釈されています。注釈の一貫性を評価するため、注釈者間で同義の標準表現を整合させる意味マッピングの一致指標を定義しました。この基準に基づき、北部86%、中央部82%、南部85%の一致率を報告します。我々は ViDia2Std でいくつかのシーケンス対シーケンスモデルをベンチマークします。mBART-large-50 が最高の結果（BLEU 0.8166、ROUGE-L 0.9384、METEOR 0.8925）を達成する一方、ViT5-base はより少ないパラメータで競争力のある性能を示します。ViDia2Std は、方言正規化が下流のタスクを大幅に改善することを示しており、堅牢なベトナム語NLPシステムを構築するには方言対応リソースが必要であることを強調しています。