AI Navigate

ラトビア語向け現代的エンコーダの事前学習とベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

要点

  • 著者らは、ラトビア語のデータ不足に対処するため、RoBERTa、DeBERTaV3、ModernBERT を基盤とするラトビア語特有のエンコーダ群を事前学習させ、長文コンテキスト対応のバリアントも含めて訓練した。
  • これらのモデルを、ラトビア語の診断的および言語学的ベンチマークの多様なセットで評価し、既存のモノリンガルおよび多言語エンコーダと比べても競争力のある性能を報告している。
  • 最良モデルは lv-deberta-base(111Mパラメータ)で、全体的な性能が最も高く、より大規模な多言語ベースラインや従来のラトビア語エンコーダを上回っている。
  • すべての事前学習済みモデルと評価リソースは、ラトビア語NLPのさらなる研究と実践的応用を支援するために公開されている。

要旨: エンコーダーのみのトランスフォーマーは、実用的なNLPタスクにとって依然として不可欠です。最近の多言語モデルの進展はクロスリンガル能力を向上させていますが、ラトビア語のようなリソースの少ない言語は事前学習コーパスでの表現が不足しており、現時点で単言語のラトビア語エンコーダはほとんど存在しません。私たちはこのギャップを埋めるべく、RoBERTa、DeBERTaV3、ModernBERT アーキテクチャに基づくラトビア語特化エンコーダのセットを事前学習し、長文コンテキストバリアントを含む、多様なラトビア語の診断的および言語学的ベンチマークの集合で評価します。私たちのモデルは、既存の単言語・多言語エンコーダと競争力のある性能を示しつつ、最近のアーキテクチャと効率性の進歩の恩恵を受けています。私たちの最良モデル lv-deberta-base (111M パラメータ) は総合性能で最も高い成果を達成し、より大規模な多言語ベースラインや以前のラトビア語特化エンコーダを上回ります。すべての事前学習済みモデルと評価リソースを公開し、ラトビア語NLPのさらなる研究と実践的応用を支援します。