PARHAF:フランス語で作られた、架空の患者のための臨床レポートを人手で作成したコーパス

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • PARHAF は、個人情報保護の制約で実臨床データ共有が難しいという課題に対し、「完全に架空の患者ケース」としてフランス語の臨床文書を人手で作成したオープンコーパスを提供する。
  • 104人の医療研修医が、18の専門領域にわたり、SNDS(フランス国家保健データシステム)の疫学的ガイダンスと定型テンプレートに基づく構造化プロトコルで7394件の臨床レポート(5009件の患者ケース)を作成し、ピアレビューも実施した。
  • コーパスには、実際の入院分布に近づけるための汎用部分に加え、オンコロジー、感染症、診断コーディングの情報抽出用途を支える4つの専門サブセットが含まれる。
  • CC-BYライセンスで公開され、一部は将来のベンチマークのために一時的にエンバーゴされるなど、プライバシーに配慮した学習・評価を可能にする設計になっている。
  • PARHAF は、フランスの臨床言語モデルの訓練・評価に有用であるだけでなく、他言語や他の医療制度でも再現可能な合成臨床コーパス作成手法を示している。

要旨: 臨床自然言語処理(NLP)システムの開発は、医療記録がセンシティブであるために深刻に阻害されており、厳格なプライバシー規制、特にフランスおよびより広い欧州連合の下ではデータ共有が制限されています。このギャップに対処するため、私たちはフランス語の臨床文書からなる大規模なオープンソース・コーパスであるPARHAFを導入します。PARHAFは、専門家が執筆した臨床報告書で構成され、現実的でありながら完全に架空の患者事例を記述します。これにより、匿名であり、設計上、自由に共有可能です。コーパスは、フランス国立健康データシステム(SNDS)からの疫学的ガイダンスと、臨床家の専門知見を組み合わせた構造化プロトコルを用いて開発され、幅広い臨床領域をカバーすることが保証されています。合計104名の医療レジデント(18の専門領域)が、あらかじめ定義された臨床シナリオと文書テンプレートに従って報告書を作成し、査読を経ました。
このコーパスには、広範な内科系および外科系の専門領域にわたる5009件の患者事例をカバーする7394件の臨床報告書が含まれます。現実世界の入院分布を近似するための汎用コンポーネントと、腫瘍学、感染症、診断コーディングにおける情報抽出のユースケースを支援する4つの専門サブセットが含まれます。文書はCC-BYのオープンライセンスの下で公開されており、その一部は、統制された条件下での将来のベンチマークを可能にするために一時的にエンバーゴされています。
PARHAFは、完全にプライバシーを保護する設定のもとでフランス語の臨床言語モデルを訓練・評価するための貴重なリソースを提供し、他の言語や医療システムにおいて共有可能な合成臨床コーパスを構築するための再現可能な手法を確立します。