フィデリティ、ダイバーシティ、プライバシー：臨床データ拡張のための多面的LLM評価

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、特にメンタルヘルス領域における高品質な臨床注釈データの不足という課題に対し、プライバシー制約下でのLLMによる合成データ拡張を提案している。
DeepSeek-R1、OpenBioLLM-Llama3、Qwen 3.5の3つのLLMを用い、ICD-10コードに条件付けした合成のメンタルヘルス評価レポートを生成する。
無邪気な文章生成がモード崩壊やプライバシー侵害（記憶による再現）を引き起こすリスクに対処するため、包括的な評価フレームワークが導入されている。
生成された診断文は、意味の忠実性（臨床的に整合する内容）、語彙の多様性（言語のばらつき）、プライバシー／剽窃（記憶やコピーの抑制）の3次元で評価される。
結果として、いずれのモデルも臨床的に首尾一貫し、多様で、プライバシーに配慮したレポートを生成できることが示され、機密を損なわずに臨床NLPの学習データを大幅に拡張できる可能性が示された。

AI-SCHOLAR

日経XTECH

Dev.to

Dev.to

Dev.to