PIIBench:個人を特定できる情報(PII)検出のための統一型マルチソースベンチマークコーパス
arXiv cs.CL / 2026/4/20
📰 ニュース
要点
- PIIBenchは、自然言語テキストにおける個人を特定できる情報(PII)検出を、一貫したラベリングのもとで評価するための統一型・マルチソースのベンチマークコーパスとして提案されます。
- 合成PII、マルチリンガルNER、金融ドメインの注釈を含む10の公開データセットを統合し、正規化パイプラインで80種類以上のラベル表記を標準化BIOタグ付けに写像することで、2,369,883件の注釈付きシーケンスと約335万のエンティティ言及、計48のPIIエンティティタイプを作成します。
- 頻度に基づいてほとんど出現しないエンティティタイプを抑制し、元データセットのソース分布を維持したまま層化した80/10/10のtrain/validation/test分割を提供します。
- 8つの既存のPII/NERシステム(Microsoft PresidioやBERT/XLM-RoBERTa系を含むNERモデル、PII特化モデルなど)を評価した結果、スパン単位のF1はいずれも0.14未満となり、最良でもF1=0.1385で多くのエンティティタイプで再現率がほぼゼロでした。
- データセット構築パイプラインとベンチマーク評価コードは公開されており、「ドメインのサイロ化」の問題を解決し、単一ソースのPIIデータセットよりも難しく包括的な評価が可能であると示しています。