NorBERTo:3310億トークン規模のポルトガル語コーパスで学習したModernBERTモデル

arXiv cs.AI / 2026/5/4

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、長い文脈に対応しつつ効率的な注意機構を備えたModernBERTベースのポルトガル語エンコーダモデル「NorBERTo」を提案しています。
  • NorBERToは、ブラジルポルトガル語の新規整備コーパス「Aurora-PT」(GPT-2トークン換算で3310億トークン)を用いて学習され、多様なWebデータや既存の多言語データセットから収集されています。
  • ASSIN 2やPLUEなどの標準データセットで、セマンティック類似・テキスト含意・分類タスクをベンチマークした結果、PLUEではNorBERTo-largeがエンコーダモデルとして最高成績を示し、MRPCで0.9191 F1、RTEで0.7689の精度を達成しています。
  • ASSIN 2では、NorBERTo-largeがエンコーダの中で最も高い含意F1(約0.904)を記録した一方で、Albertina-900MやBERTimbau-largeなど一部の既存モデルが一部評価で優位であると報告されています。
  • Aurora-PTは、これまでで最大規模の公開可能な単一言語ポルトガル語コーパスだとされ、NorBERToは実運用を見据えたミッドサイズのエンコーダとして、微調整や提供の効率性に加え、検索拡張生成などのバックボーンとしての適性も示されています。

要旨: ポルトガル語の自然言語処理(NLP)を発展させるには、高品質なコーパスが不可欠です。BERTimbau や Albertina PT-BR のような、これまでのエンコーダのみのモデルを踏まえ、本研究では ModernBERT アーキテクチャに基づく、長文コンテキスト対応と効率的な注意機構(attention)を備えた現代的なエンコーダである NorBERTo を提案します。NorBERTo は、Aurora-PT で学習します。Aurora-PT は、新たにキュレーションされたブラジルポルトガル語コーパスであり、多様な Web ソースおよび既存の多言語データセットから収集した 3310 億(331 billion)GPT-2 トークンで構成されています。私たちは、ASSIN 2 や PLUE のような標準化されたデータセットを用いて、意味類似、テキスト含意、分類タスクにおいて、NorBERTo を強力なベースラインと体系的にベンチマークします。PLUE では、NorBERTo-large が、私たちが評価したエンコーダモデルの中で最良の結果を達成し、とりわけ MRPC で 0.9191 の F1、RTE で 0.7689 の精度を記録しています。ASSIN 2 では、NorBERTo-large は、考慮されたすべてのエンコーダの中で最も高い含意 F1(約 0.904)を達成する一方で、Albertina-900M と BERTimbau-large は依然として優位性を保持しています。私たちの知る限り、Aurora-PT は現在、入手可能な最大規模のオープンな単一言語ポルトガル語コーパスであり、これまでの資源を上回っています。NorBERTo は、現実的な導入シナリオを想定して設計された、モダンで中規模のエンコーダです。微調整(fine-tune)が容易で、提供(serve)も効率的であり、検索拡張生成やその他の派生タスクのポルトガル語 NLP システムのバックボーンとして適しています。