オランダ語の医療会話向け高品質な合成データの生成

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、プライバシーや倫理的制約により入手困難なオランダ語の医療対話データ不足を補うため、実際の会話を参照しながらLLMで合成オランダ語医療対話を生成するパイプラインを提案しています。
  • 生成物は定量評価(語彙多様性など)と、母語話者・医療従事者による定性レビューで評価され、語彙の多様性は高い一方で、ターンテイキングが過度に規則的で台本的な会話になりがちであることが示されました。
  • 定性評価では平均よりやや低いスコアとなり、領域特異性や自然な表現に課題があると指摘されています。
  • 数値指標と人手評価の相関が限定的であることから、会話の言語品質は数値メトリクスだけでは十分に捉えられないと結論づけています。
  • 合成対話生成は実現可能だが、自然さと会話構造のバランスを取るためにドメイン知識と入念なプロンプト設計が重要だと述べ、オランダの臨床NLP資源拡充の基盤を提供します。

Abstract

医療会話は、しばしば電子健康記録(Electronic Health Records)には見られない臨床コミュニケーションに関する洞察を提供します。しかし、信頼性の高い臨床ナチュラルランゲージ処理(NLP)モデルを開発するには、ドメイン固有のデータセットが乏しいことが障害となっています。臨床データは通常、プライバシーおよび倫理的制約によりアクセスできないためです。これらの課題に対処するために、実際の医療会話を言語的・構造的な参照として用い、オランダ語向けにファインチューニングした大規模言語モデル(Large Language Model)によって合成オランダ語医療対話を生成するパイプラインを提示します。生成した対話は、定量的指標による評価と、母語話者および医療従事者による質的な査読によって評価されました。定量分析の結果、語彙の多様性は高い一方で、発話交替が過度に規則的であり、台本のような会話の流れを示唆していました。質的査読では平均をわずかに下回るスコアが得られ、評価者はドメイン特異性や自然な表現に関する問題点を指摘しました。定量結果と質的結果の相関が限定的であることは、数値指標だけでは言語的品質を十分に捉えられないことを示しています。本研究の知見は、合成オランダ語医療対話の生成は実現可能であるものの、自然さと構造のバランスをとるためにドメイン知識と慎重に設計されたプロンプトが必要であることを示しています。本研究は、倫理的に生成された合成データを通じてオランダ語の臨床NLP資源を拡張するための基盤を提供します。