ラトビア語向け現代的エンコーダの事前学習とベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

共有:

要点

著者らは、ラトビア語のデータ不足に対処するため、RoBERTa、DeBERTaV3、ModernBERT を基盤とするラトビア語特有のエンコーダ群を事前学習させ、長文コンテキスト対応のバリアントも含めて訓練した。
これらのモデルを、ラトビア語の診断的および言語学的ベンチマークの多様なセットで評価し、既存のモノリンガルおよび多言語エンコーダと比べても競争力のある性能を報告している。
最良モデルは lv-deberta-base（111Mパラメータ）で、全体的な性能が最も高く、より大規模な多言語ベースラインや従来のラトビア語エンコーダを上回っている。
すべての事前学習済みモデルと評価リソースは、ラトビア語NLPのさらなる研究と実践的応用を支援するために公開されている。

要旨: エンコーダーのみのトランスフォーマーは、実用的なNLPタスクにとって依然として不可欠です。最近の多言語モデルの進展はクロスリンガル能力を向上させていますが、ラトビア語のようなリソースの少ない言語は事前学習コーパスでの表現が不足しており、現時点で単言語のラトビア語エンコーダはほとんど存在しません。私たちはこのギャップを埋めるべく、RoBERTa、DeBERTaV3、ModernBERT アーキテクチャに基づくラトビア語特化エンコーダのセットを事前学習し、長文コンテキストバリアントを含む、多様なラトビア語の診断的および言語学的ベンチマークの集合で評価します。私たちのモデルは、既存の単言語・多言語エンコーダと競争力のある性能を示しつつ、最近のアーキテクチャと効率性の進歩の恩恵を受けています。私たちの最良モデル lv-deberta-base (111M パラメータ) は総合性能で最も高い成果を達成し、より大規模な多言語ベースラインや以前のラトビア語特化エンコーダを上回ります。すべての事前学習済みモデルと評価リソースを公開し、ラトビア語NLPのさらなる研究と実践的応用を支援します。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

ラトビア語向け現代的エンコーダの事前学習とベンチマーク

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer