1980〜2013年の103Bトークン規模Usenetコーパスを長年構築し、ついに公開した

Reddit r/MachineLearning / 2026/5/2

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 1980〜2013年を対象とするプライベートなUsenetアーカイブが、103.1Bトークン(cl100k_base)・408M投稿・18,347のニュースグループを含むコーパスとして整理されました。
  • データは重複除去、引用テキストの扱い、alt.binaries.* の階層レベルでの除外(記録単位のクリーニング前)、およびメールアドレスの秘匿(パターンマッチとMessage-IDのSHA-256ハッシュ)など、徹底的な前処理を受けています。
  • 生のMBOXをgzip圧縮したJSONLへ変換し、全レコードにMetaのfastText LID-176で言語検出を実施した結果、英語が96.6%で、100以上の他言語も実質的に含まれています。
  • 著者は、このコーパスが「時間的な流れ」を持ち、1986年以前はスカスカで、その後90年代初頭にかけて増え、1999〜2000年頃にピークを迎え、その後フォーラムやソーシャルメディアに押されて減っていくという言語の長期的変化を1つのまとまったデータに収録している点を強調しています。
  • データカード、クリーニング手順、代表サンプルがHugging Faceで公開されており、研究者や実務者が参照・検討できるようになっています。

ここ数年、私は静かに、私が大規模だと考えている個人保有の事前学習コーパスのひとつを組み立て、処理してきました……1980年から2013年までをカバーする完全なUsenetアーカイブです。

最終的にそれは次のようになりました:

  • 103.1 billion tokens(cl100k_base)
  • 408 million posts(9つのニュースグループ階層にまたがる)
  • 18,347 newsgroups(カバー)
  • 33 years(継続的にカバー)

処理パイプラインには、完全な重複排除、バイナリの削除(alt.binaries.* は階層レベルでレコード単位のクリーニングの前に除外)、引用テキストの取り扱い、パターンマッチングとMessage-IDのSHA-256ハッシュによるメールアドレスの秘匿、そして生のMBOXアーカイブからgzip圧縮したJSONLへの変換が含まれていました。

言語検出は Meta の fasttext LID-176 を使い、すべてのレコードで実行しました。このコーパスは96.6%が英語で、100以上の他言語が意味のある形で含まれています。特に soc.culture.* グループは非英語の密度が高いです。

このデータセットを学習データとして見たときに、私が最も興味深いと思うのは時間的な流れ(時間軸の変化)です。1986年以前はボリュームがまばらで、90年代初頭にかけて着実に増え、1999〜2000年頃にピークを迎え、その後、Usenet がフォーラムやソーシャルメディアに置き換えられていくにつれて減少します。これは、単一の首尾一貫したコーパスに組み込まれた、33年間にわたる言語の進化の窓です――SEOの前、エンゲージメント最適化の前、そしてAI生成コンテンツが存在する前。

私は Hugging Face 上に、完全なデータカード、クリーニング手法、代表的なサンプル(各階層につき5K投稿+結合セット)を公開しています:https://huggingface.co/datasets/OwnedByDanes/Usenet-Corpus-1980-2013

処理パイプライン、またはデータそのものについての質問には喜んでお答えします。

submitted by /u/OwnerByDane
[link] [comments]