PIIBench：個人を特定できる情報（PII）検出のための統一型マルチソースベンチマークコーパス

arXiv cs.CL / 2026/4/20

📰 ニュース

共有:

要点

PIIBenchは、自然言語テキストにおける個人を特定できる情報（PII）検出を、一貫したラベリングのもとで評価するための統一型・マルチソースのベンチマークコーパスとして提案されます。
合成PII、マルチリンガルNER、金融ドメインの注釈を含む10の公開データセットを統合し、正規化パイプラインで80種類以上のラベル表記を標準化BIOタグ付けに写像することで、2,369,883件の注釈付きシーケンスと約335万のエンティティ言及、計48のPIIエンティティタイプを作成します。
頻度に基づいてほとんど出現しないエンティティタイプを抑制し、元データセットのソース分布を維持したまま層化した80/10/10のtrain/validation/test分割を提供します。
8つの既存のPII/NERシステム（Microsoft PresidioやBERT/XLM-RoBERTa系を含むNERモデル、PII特化モデルなど）を評価した結果、スパン単位のF1はいずれも0.14未満となり、最良でもF1=0.1385で多くのエンティティタイプで再現率がほぼゼロでした。
データセット構築パイプラインとベンチマーク評価コードは公開されており、「ドメインのサイロ化」の問題を解決し、単一ソースのPIIデータセットよりも難しく包括的な評価が可能であると示しています。