GPT-NL Public Corpus:LLM事前学習向けの、寛容なライセンスのオランダ語優先データセット

arXiv cs.CL / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、LLMの事前学習を目的とした、寛容にライセンスされた大規模な「GPT-NL Public Corpus」—オランダ語を第一とするデータセット—を発表する。
  • 本データセットには、オランダ語のみのコレクション21件を含み、前処理済みオランダ語トークンとして合計360億(36B)トークンが収録される。さらに、コンプライアンスに配慮してキュレーションされた追加の英語(207B)、コード(232B)、ドイツ語/デンマーク語(48B)トークンも含まれる。
  • オランダ語データは、既存コーパスのキュレーション版(例:Common Crawl/Common Corpus)と、新たに作成したオランダ語特化のコレクションの両方から収集される。これには、組織間の協力や合成による増強が関与する場合がある。
  • 含まれるすべてのデータはCC-BYライセンスの下で再配布されており、ライセンス、キュレーション、評価は、合法で有用かつ有害でない商用言語モデル開発を可能にすることを目指している。
  • データセット全体は、Hugging Face Hubを通じて公開される。

要旨: 私たちは、オランダ語の言語リソースとして最大規模の、寛容なライセンスの公開コーパスであるGPT-NL Public Corpusを提示します。GPT-NL Public Corpusには、他のいかなるLLM事前学習コーパスにも含まれていない、合計360億(36B)の前処理済みオランダ語トークンからなる、オランダ語のみの収集データ21コレクションが含まれています。さらに、このコーパスには、既存のセットから取得し、適合性(コンプライアンス)を満たすように追加で精査した、およそ207Bの英語、232Bのコード、および48Bのドイツ語/デンマーク語トークンが含まれます。このコーパスには、Common CorpusやCommon Crawlのような大規模既存コーパスからの精査データと、あらたに作成したオランダ語特化のコレクションが含まれています。新規に作成されたオランダ語コレクションの大部分は、組織との協力により収集されたコンテンツ、または合成的に拡張されたコンテンツで構成されています。すべてのデータは、合法的で、有用であり、かつ有害でない(non-harmful)(商用)言語モデルの作成を促進することを目的として、収集および評価されています。GPT-NL Public Corpusに含まれるすべてのデータは、寛容なライセンスを伴うデータセットに由来し、CC-BYライセンスのもとで精査され、再配布されています。完全なデータセットはHugging Face Hub上で公開されています。