ここ数年、私は静かに、私が大規模だと考えている個人保有の事前学習コーパスのひとつを組み立て、処理してきました……1980年から2013年までをカバーする完全なUsenetアーカイブです。
最終的にそれは次のようになりました:
- 103.1 billion tokens(cl100k_base)
- 408 million posts(9つのニュースグループ階層にまたがる)
- 18,347 newsgroups(カバー)
- 33 years(継続的にカバー)
処理パイプラインには、完全な重複排除、バイナリの削除(alt.binaries.* は階層レベルでレコード単位のクリーニングの前に除外)、引用テキストの取り扱い、パターンマッチングとMessage-IDのSHA-256ハッシュによるメールアドレスの秘匿、そして生のMBOXアーカイブからgzip圧縮したJSONLへの変換が含まれていました。
言語検出は Meta の fasttext LID-176 を使い、すべてのレコードで実行しました。このコーパスは96.6%が英語で、100以上の他言語が意味のある形で含まれています。特に soc.culture.* グループは非英語の密度が高いです。
このデータセットを学習データとして見たときに、私が最も興味深いと思うのは時間的な流れ(時間軸の変化)です。1986年以前はボリュームがまばらで、90年代初頭にかけて着実に増え、1999〜2000年頃にピークを迎え、その後、Usenet がフォーラムやソーシャルメディアに置き換えられていくにつれて減少します。これは、単一の首尾一貫したコーパスに組み込まれた、33年間にわたる言語の進化の窓です――SEOの前、エンゲージメント最適化の前、そしてAI生成コンテンツが存在する前。
私は Hugging Face 上に、完全なデータカード、クリーニング手法、代表的なサンプル(各階層につき5K投稿+結合セット)を公開しています:https://huggingface.co/datasets/OwnedByDanes/Usenet-Corpus-1980-2013
処理パイプライン、またはデータそのものについての質問には喜んでお答えします。
[link] [comments]




