要約: 収益報告の正確なタグ付けは、利害関係者にとって顕著な短期リターンを生み出す可能性がある。機械可読なインラインeXtensible Business Reporting Language(iXBRL)は、公的な財務申告に義務付けられている。とはいえ、その複雑で細粒度の分類体系は、タグ付けされた主要業績指標(KPIs)の企業間転用性を制限する。これに対処するため、階層的財務KPI(HiFi-KPI)データセットを導入する。これは、iXBRLタクソノミーにリンクした、1.65M段落と198k個の一意で階層的に整理されたラベルからなる大規模コーパスである。HiFi-KPIは複数のタスクをサポートし、3つを評価する:KPI分類、KPI抽出、そして構造化KPI抽出。迅速な評価のため、HiFi-KPI-Liteも公開する。これは手動でキュレーションされた8K段落のサブセットである。HiFi-KPI-Liteのベースラインは、エンコーダーベースのモデルが分類で0.906を超えるマクロF1を達成し、LLMsは構造化抽出で0.440のF1に到達する。最後に、定性的な分析により、抽出エラーは主に日付に関連していることが明らかになった。すべてのコードとデータをオープンソースとして公開しています。https://github.com/aaunlp/HiFi-KPI。
HiFi-KPI: 決算開示資料からの階層的KPI抽出データセット
arXiv cs.CL / 2026/3/20
📰 ニュースTools & Practical UsageModels & Research
要点
- HiFi-KPIデータセットは、決算開示資料から階層的KPIを抽出する大規模リソースであり、165万段落とiXBRLタクソノミーにリンクされた198千件の階層ラベルから成ります。
- KPI分類、KPI抽出、構造化KPI抽出の3つの評価タスクを定義し、手作業でキュレーションされた8千段落のサブセットHiFi-KPI-Liteを公開します。
- 強力なベースラインを報告します。エンコーダーベースのモデルは分類でマクロF1を0.906超、LLMsは構造化抽出で約0.440のF1を達成し、日付処理に起因する誤りが大半を占めます。
- 提供されたGitHubリポジトリで全コードとデータをオープンソース化しており、再現性と今後の研究を促進します。
- 財務開示資料におけるKPIタグ付けの企業間移行性を改善し、KPI抽出システムの迅速な評価を加速することを目指します。




