オランダ語の医療会話向け高品質な合成データの生成
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、プライバシーや倫理的制約により入手困難なオランダ語の医療対話データ不足を補うため、実際の会話を参照しながらLLMで合成オランダ語医療対話を生成するパイプラインを提案しています。
- 生成物は定量評価(語彙多様性など)と、母語話者・医療従事者による定性レビューで評価され、語彙の多様性は高い一方で、ターンテイキングが過度に規則的で台本的な会話になりがちであることが示されました。
- 定性評価では平均よりやや低いスコアとなり、領域特異性や自然な表現に課題があると指摘されています。
- 数値指標と人手評価の相関が限定的であることから、会話の言語品質は数値メトリクスだけでは十分に捉えられないと結論づけています。
- 合成対話生成は実現可能だが、自然さと会話構造のバランスを取るためにドメイン知識と入念なプロンプト設計が重要だと述べ、オランダの臨床NLP資源拡充の基盤を提供します。




