1980〜2013年の103Bトークン規模Usenetコーパスを長年構築し、ついに公開した

Reddit r/MachineLearning / 2026/5/2

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

1980〜2013年を対象とするプライベートなUsenetアーカイブが、103.1Bトークン（cl100k_base）・408M投稿・18,347のニュースグループを含むコーパスとして整理されました。
データは重複除去、引用テキストの扱い、alt.binaries.* の階層レベルでの除外（記録単位のクリーニング前）、およびメールアドレスの秘匿（パターンマッチとMessage-IDのSHA-256ハッシュ）など、徹底的な前処理を受けています。
生のMBOXをgzip圧縮したJSONLへ変換し、全レコードにMetaのfastText LID-176で言語検出を実施した結果、英語が96.6%で、100以上の他言語も実質的に含まれています。
著者は、このコーパスが「時間的な流れ」を持ち、1986年以前はスカスカで、その後90年代初頭にかけて増え、1999〜2000年頃にピークを迎え、その後フォーラムやソーシャルメディアに押されて減っていくという言語の長期的変化を1つのまとまったデータに収録している点を強調しています。
データカード、クリーニング手順、代表サンプルがHugging Faceで公開されており、研究者や実務者が参照・検討できるようになっています。

ここ数年、私は静かに、私が大規模だと考えている個人保有の事前学習コーパスのひとつを組み立て、処理してきました……1980年から2013年までをカバーする完全なUsenetアーカイブです。

最終的にそれは次のようになりました:

103.1 billion tokens（cl100k_base）
408 million posts（9つのニュースグループ階層にまたがる）
18,347 newsgroups（カバー）
33 years（継続的にカバー）

処理パイプラインには、完全な重複排除、バイナリの削除（alt.binaries.* は階層レベルでレコード単位のクリーニングの前に除外）、引用テキストの取り扱い、パターンマッチングとMessage-IDのSHA-256ハッシュによるメールアドレスの秘匿、そして生のMBOXアーカイブからgzip圧縮したJSONLへの変換が含まれていました。

言語検出は Meta の fasttext LID-176 を使い、すべてのレコードで実行しました。このコーパスは96.6%が英語で、100以上の他言語が意味のある形で含まれています。特に soc.culture.* グループは非英語の密度が高いです。

このデータセットを学習データとして見たときに、私が最も興味深いと思うのは時間的な流れ（時間軸の変化）です。1986年以前はボリュームがまばらで、90年代初頭にかけて着実に増え、1999〜2000年頃にピークを迎え、その後、Usenet がフォーラムやソーシャルメディアに置き換えられていくにつれて減少します。これは、単一の首尾一貫したコーパスに組み込まれた、33年間にわたる言語の進化の窓です――SEOの前、エンゲージメント最適化の前、そしてAI生成コンテンツが存在する前。

私は Hugging Face 上に、完全なデータカード、クリーニング手法、代表的なサンプル（各階層につき5K投稿＋結合セット）を公開しています：https://huggingface.co/datasets/OwnedByDanes/Usenet-Corpus-1980-2013

処理パイプライン、またはデータそのものについての質問には喜んでお答えします。

submitted by /u/OwnerByDane
[link] [comments]