PARHAF, a human-authored corpus of clinical reports for fictitious patients in French
arXiv cs.CL / 3/24/2026
📰 NewsSignals & Early TrendsTools & Practical UsageModels & Research
Key Points
- PARHAF は、個人情報保護の制約で実臨床データ共有が難しい問題に対し、フランス語の臨床文書を「完全に架空の患者ケース」として人手で作成したオープンコーパスを提供する。
- 104人の医療研修医が18の専門領域で、SNDS(フランス国家保健データシステム)の疫学的ガイダンスと定型テンプレートに基づく構造化プロトコルで7394件の臨床レポート(5009件の患者ケース)を作成し、ピアレビューも実施した。
- コーパスは、実際の入院分布に近づける汎用部分に加え、オンコロジー、感染症、診断コーディングの情報抽出用途を支える4つの専門サブセットを含む。
- CC-BYライセンスで公開され、一部は将来のベンチマークのために一時的にエンバーゴされるなど、プライバシーを保った学習・評価を可能にする設計になっている。
- PARHAF はフランスの臨床言語モデルの訓練・評価に有用なだけでなく、他言語や他の医療制度でも再現可能な合成臨床コーパス作成手法を示す。
Related Articles

Black Hat Asia
AI Business

"The Agent Didn't Decide Wrong. The Instructions Were Conflicting — and Nobody Noticed."
Dev.to
Top 5 LLM Gateway Alternatives After the LiteLLM Supply Chain Attack
Dev.to

Stop Counting Prompts — Start Reflecting on AI Fluency
Dev.to

Reliable Function Calling in Deeply Recursive Union Types: Fixing Qwen Models' Double-Stringify Bug
Dev.to