要旨:オープンデータポータルの出現は、データセットが公開・交換される前に機微データを保護することへ、より多くの注意を払う必要性を生み出します。これを効果的に行うには、機微データの定義を精緻化・拡張する必要があると観察し、データの機密性はその文脈に依存することを主張します。この定義に従い、2つの主要概念に基づく文脈的データ機微性フレームワークを導入します:1) 型の文脈化(type contextualization)、データセットまたは文書の全体的な文脈の中で、手元のデータ値の型を検討し、それらの真の機微性を評価します。2) ドメイン文脈化(domain contextualization)、データセット外部の領域特有の情報、例えばデータセットの地理的起源などに基づいてデータ値の機微性を評価します。言語モデルを用いた実験は次を確認しました:1) 型の文脈化は、型ベースの機微データ検出における偽陽性の数を著しく減らし、商用ツールの63%と比較してリコールを94%に達成します。2) 感度規則の検索を活用したドメイン文脈化は、関連する文脈に基づく機微データ検出を、非標準的なデータドメインにおいて効果的に根付かせます。人道支援データの専門家を対象とした事例研究は、文脈に基づく説明が手動データ監査プロセスに有用な指針を提供することを示しています。私たちは、メカニズムの実装と注釈付きデータセットを https://github.com/trl-lab/sensitive-data-detection にオープンソースとして公開します。
文脈依存の機微データ検出へ
arXiv cs.CL / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、データセットの文脈に基づいてデータの機微性を判断するために、型文脈化とドメイン文脈化を用いる文脈的データ機微性フレームワークを提案する。
- 実験の結果、型文脈化は偽陽性を削減し、リコール率を94%まで高めたのに対して、商用ツールは63%だった。
- 感度ルール取得を伴うドメイン文脈化は、検出をドメイン固有の情報に基づかせ、非標準データドメインを含む。
- 人道データのケーススタディは、文脈に基づく説明が手動データ監査を支援することを示しており、著者らは実装とデータセットをオープンソース化した。




