オランダの臨床ノートにおける差分プライバシーによる非識別化：比較評価

arXiv cs.CL / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、GDPRやHIPAAなどの規制に基づく医療データの二次利用を可能にするために、オランダ語の臨床ノートを非識別化する際のプライバシー課題を扱っています。
本研究では、オランダ語の臨床テキストの非識別化における3つの手法、すなわち差分プライバシー（DP）方式、固有表現認識（NER）に基づく秘匿（redaction）、およびLLMを用いた非識別化を初めて比較評価しています。
さらに、NERまたはLLMによる前処理の後にDPを適用するハイブリッド手法も検証し、プライバシー保護と有用性のバランスを改善することを狙っています。
結果として、DPメカニズム単独では有用性が大きく低下する一方で、DPに言語的前処理—特にLLMベースの秘匿—を組み合わせると、プライバシー–有用性のトレードオフが大幅に改善されることが示されています。
評価はプライバシー漏えいの検査に加え、実運用上の影響を測るために、エンティティおよび関係の分類といった外部（extrinsic）タスクも用いて行われます。

Abstract

GDPRやHIPAAなどの規制のもとで医療データの二次利用を可能にするためには、臨床ナラティブにおける患者プライバシーの保護が不可欠です。手作業による匿名化は依然としてゴールドスタンダードですが、高コストで遅いため、プライバシー保証と高い有用性を両立する自動化手法の必要性が高まっています。現在利用されている大半の自動テキスト匿名化パイプラインでは、保護対象のエンティティを特定してマスクするために名前付きエンティティ認識（NER）が用いられています。差分プライバシー（DP）に基づく手法は形式的なプライバシー保証を提供しますが、近年では臨床領域におけるテキスト匿名化に、大規模言語モデル（LLM）もますます活用されるようになってきています。本研究では、オランダ語の臨床テキスト匿名化において、DP、NER、LLMを比較するための最初の研究を提示します。これらの手法を個別に検討するだけでなく、DPの前にNERまたはLLMの前処理を適用するハイブリッド戦略も調査し、プライバシー漏えいと外部評価（エンティティおよび関係の分類）という観点で性能を評価します。DPメカニズム単独では有用性が大きく低下する一方で、言語的前処理、とりわけLLMベースのマスキングと組み合わせることで、プライバシー・有用性のトレードオフが大幅に改善されることを示します。