ゼロショット精神データのための知識ガイド付き検索拡張生成（RAG）：プライバシー保護合成データ生成

arXiv cs.LG / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実患者データセットが利用できない場合に、合成の精神科タブularデータを生成するための、ゼロショットかつ知識ガイド付きの検索拡張生成（RAG）フレームワークを提案する。
DSM-5とICD-10を知識ベースとしてRAGでLLMを誘導し、生成データをCTGANおよびTVAEとベンチマークする。これらは実データを必要とし、プライバシー上のリスクを生じ得る。
不安関連の6つの疾患に関する実験では、CTGANは通常、周辺分布と多変量構造で最も良い性能を示す一方、知識を補強したLLMは2変量（ペアワイズ）構造で競争力があり、分離不安および社交不安ではペアワイズ誤差が最も低い。
アブレーション研究により、臨床リトリーバル（検索）は、リトリーバルなしのLLMと比べて単変量およびペアワイズの忠実度を改善することが示される。またプライバシー分析では、「実データなし」のLLMは重なりが中程度で平均的なリンクリスクが低いことが示され、TVAEは一部の指標ではそうであるにもかかわらず重複がより多い。
全体として著者らは、臨床タクソノミ（分類体系）にLLMを基盤づけることで、高品質でプライバシーを保護した合成の精神科データセットを生成でき、実データを共有できない医療研究のワークフローに適したものになると結論づけている。

要旨: 医療分野におけるAIシステムは、患者の処理能力を高め、臨床家を支援し得る可能性を示してきましたが、実患者データへの限られたアクセスによって進展が制約されています。この問題に対処するため、本研究では、精神科の表形式データに対するゼロショットかつ知識誘導型の枠組みを提案します。この枠組みでは、大規模言語モデル（LLM）を、診断と統計マニュアル（DSM-5）および疾病及び関連保健問題の国際統計分類（ICD-10）を用いたRetrieval-Augmented Generationによって制御します。私たちは、異なる組み合わせの知識ベースを用いて、プライバシーを保護する合成データを生成する実験を行いました。その結果のモデルを、合成表形式データ生成のための最先端の深層学習モデルであるCTGANおよびTVAEの2つとベンチマークしました。これらはいずれも実データに依存しているため、潜在的なプライバシーリスクを伴います。評価は、6つの不安関連障害、すなわち特定の恐怖症、社交不安障害、広場恐怖、全般性不安障害、分離不安障害、およびパニック障害について実施しました。CTGANは通常、最良の周辺分布（marginals）と多変量構造を達成します。一方で、知識を補強したLLMは、ペアワイズ構造において競争力があり、分離不安と社交不安におけるペアワイズ誤差が最も低いことが分かりました。アブレーション研究により、臨床的なリトリーバル（検索）は、リトリーバルなしのLLMと比べて、単変量およびペアワイズの忠実度を確実に改善することが示されました。プライバシー分析では、実データを用いないLLMは、限定的な重なり（overlaps）と、CTGANと同程度の低い平均リンクリスクを示すのに対し、TVAEはk-mapスコアが低いにもかかわらず広範な重複（duplication）を示すことがわかりました。総合すると、臨床知識に基づいてLLMを位置づけることで、実データセットが利用できない、または共有できない場合でも、高品質でプライバシーを保護した合成精神科データを実現できることが示されました。