| 米国のAIエコシステムがますますクローズド化していることを踏まえると、オープンなモデルやデータセットの公開をさらに普及させていくことは、これまで以上に重要になっています。 [Datamule](https://datamule.xyz/)、[Teraflop AI](https://www.teraflopai.com/)、そして[Eventual](https://www.eventual.ai/) が協力して、[SEC-EDGARデータセット](https://huggingface.co/datasets/TeraflopAI/SEC-EDGAR)をリリースしました。 このデータセットには590 GBのデータが含まれており、SEC EDGARデータベース内の主要な提出書類すべてから、800万件のサンプルと430億トークンが含まれています。多くの非公式API提供業者は、このデータへのアクセスに月に数百ドルを請求し、さらに厳しい制限を設けています。 SECのElectronic Data Gathering, Analysis, and Retrieval(EDGAR)は、過去20年間にわたって上場企業が提出した企業の財務申告書類の何百万もの文書にアクセスできる無料の公開オンラインデータベースです。私たちは、EDGARシステムから、10-Q、10-K、8-5などを含む多数の年次・四半期報告書を無料かつオープンに提供しています。 大量データは、[datamule-python](https://github.com/john-friedman/datamule-python)ライブラリと、[John Friedman](https://john-friedman.github.io/)によって作成された公式の[datamule API](https://datamule.xyz/)を用いて収集されました。DatamuleのPythonライブラリは、SEC Edgarデータを大規模に収集・操作・処理するためのパッケージです。Datamuleは、ティッカーと提出種別ごとに、各企業の提出書類を簡単にダウンロードできるシンプルなオープンソースAPIインターフェースを提供します。SEC EDGARには、1秒あたり10リクエストのレート制限があります。ネットワークのオーバーヘッドなしで主要な提出書類800万件を継続的にクロールするだけで、公式のEDGARガイダンスに従っても単独で10日以上かかります。datamuleのドキュメントは[こちら](https://john-friedman.github.io/datamule-python/)にあります。 このデータセットには、各主要提出書類の生の内容、抽出および解析済みのHTML/XMLプレーンテキスト、ならびに、提出書類のアクセッション番号、提出日、対象期間、文書、提出者などの関連メタデータが含まれています。生の文書内容は、独自のカスタムパーサーを使ってHTML/XMLをプレーンテキストに抽出できるように提供しています。テキストは、[selectolax](https://selectolax.readthedocs.io/en/latest/index.html)HTMLパーサーと、[doc2dict](https://github.com/john-friedman/doc2dict/tree/main)および[secsgml](https://github.com/john-friedman/secsgml)ライブラリの改変版を使って、HTML/XMLの内容から解析・抽出しました。 SEC SGMLライブラリは、米国証券取引委員会が使用する[Standard Generalized Markup Language](https://en.wikipedia.org/wiki/Standard_Generalized_Markup_Language)という文書形式を解析し、[日次アーカイブ](http://sec.gov/Archives/edgar/Feed/)や[提出ファイル種別](https://www.sec.gov/Archives/edgar/data/1318605/000095017022000796/0000950170-22-000796.txt)を扱うために使用されています。doc2dictライブラリは、HTML、XML、PDFコンテンツを抽出するための複数のパーサーを提供し、プレーンテキストへの変換および表のマッピングを明示的に処理するために使用されました。doc2dictのドキュメントは[こちら](https://john-friedman.github.io/doc2dict/whitepaper/)にあります。私たちは、DaftのステートフルUDFから、[`@daft.cls`](https://docs.daft.ai/en/stable/custom-code/cls/#stateful-class-udfs-with-daftcls)と[`@daft.method.batch`](https://docs.daft.ai/en/stable/custom-code/cls/#batch-methods-with-daftmethodbatch)を利用し、doc2dictおよびsecsgmlで文書をバッチ処理します。 データの分散処理は、非常に効率的な[Daftデータフレームライブラリ](https://www.daft.ai/)、[Ray](https://github.com/ray-project/ray)の分散フレームワーク、そして[Teralop AIデータパイプライン](https://github.com/teraflop-ai)を用いてスケールアウトしました。データセット全体は、合計12コアで、24時間未満でクリーンなプレーンテキスト形式に処理されました。総コストは約1.10米ドルでした。 このデータセットは、Hugging Faceで[こちら](https://huggingface.co/datasets/TeraflopAI/SEC-EDGAR)にて完全に無料で公開されています。データセット全体と、各提出書類の個別サブセットの一覧は[こちら](https://hf.co/collections/TeraflopAI/sec-edgar)にあります。 以下では、文書タイプごとのクロールおよびリリースされたサンプル数の合計を示す表を掲載します: | Filing | Total number of samples | | :---- | :---- | | Form 5 | 114,724 | | Form 4 | 4,474,981 | | Form 3 | 387,465 | | S-1 | 24,866 | | S-8 | 95,543 | | 10-K | 223,275 | | 8-K | 1,952,207 | | 20-F | 19,428 | | 10-Q | 674,240 | | 144 | 88,726 | | Total | 8,055,455 | 各提出書類におけるトークン数の内訳は以下のとおりです: | Filing | Total token count | | :---- | :---- | | 10-K | 14,518,876,137 | | 20-F | 2,917,164,397 | | Form 5 | 66,330,315 | | Form 4 | 1,676,565,503 | | Form 3 | 110,098,014 | | 10-Q | 17,509,723,617 | | S-1 | 2,914,107,827 | | S-8 | 472,867,864 | | 8-K | 3,466,866,649 | | 144 | 73,218,304 | | Total | 43,725,818,627 | 次回のSEC-EDGARデータセットのリリースでは、今回含まれなかった他のすべての提出書類タイプやフォームに加えて、このリリースに含まれる主要な提出書類も含めます。各文書タイプの完全な内訳はDatamuleのSEC Census [こちら](https://github.com/john-friedman/SEC-Census/tree/master)で確認できます。 私たちは、さまざまな領域にまたがるオープンソースの最先端検索を構築しています。今後のオープンソースプロジェクトやデータセットのリリースを支援したり、貢献したい場合は、私たちの[Discord](https://discord.gg/bWW8Wbhxhx)に参加するか、こちらから直接ご連絡ください。[ここ](https://x.com/EnricoShippole)。 [リンク] [コメント] |
Hugging FaceでSECのEDGARをオープンソース化
Reddit r/LocalLLaMA / 2026/4/16
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market Moves
要点
- Datamule、Teraflop AI、Eventual が、米SECのEDGAR公開情報を学習・研究用途に使える「SEC-EDGAR」データセットとしてHugging Faceでオープンリリースしました。
- データセットは約590GB・約800万件の提出書類・約430億トークンを含み、10-Q/10-K/8-K等の主要フィリングを過去20年分からカバーする内容です。
- これまで非公式API事業者が高額かつ厳しい利用制限付きで提供していたEDGARアクセスを、より手軽で制限の少ない形で再利用できるようにする狙いがあります。
- 収集には datamule-python と datamule API を利用し、SECのレート制限(秒10リクエスト)を踏まえた大規模クロールにより作成された点が説明されています。
- データは生の提出書類に加えて、HTML/XMLの抽出・テキスト化された形式も含むとされています。




