文化的に根ざした知識を用いたバングラデシュのメンタルヘルス・カウンセリング支援の強化

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この研究は、メンタルヘルスのカウンセリングにおける大規模言語モデル（LLM）の重要な制約、すなわち回答が文化的に不適切だったり文脈に十分根差していなかったり、臨床的に不適切になり得る点に取り組みます。
著者らは、バングラデシュにおけるパラカウンセラーの支援を目的として、臨床的に検証された領域固有の知識をLLMへ体系的に取り込む方法を提案します。
彼らは retrieval-augmented generation（RAG）と、知識グラフ（KG）方式を比較し、KGはストレス要因・介入・アウトカム間の因果関係を表すために手作業で構築され、専門家／臨床の検証を経ています。
実験では複数のLLMを対象に、BERTScoreやSBERTなどの自動類似度指標に加え、人手評価を5つの指標で実施し、表面的な類似性だけでなくカウンセリングの有効性を測ることを狙います。
結果として、KGベースの手法はRAG単独よりも文脈上の適切さ、臨床的適切さ、実用性が一貫して向上し、カウンセリング用途では構造化された専門知識がLLMの限界を補う上で重要だと示しています。

要旨: 大規模言語モデル（LLM）は、メンタルヘルスやカウンセリングのアプリケーションにおいて、支援的な応答を生成する可能性を示しています。しかし、それらの応答はしばしば、文化的配慮に欠けること、文脈に基づく根拠が不足すること、そして臨床的に適切な指針が欠けることがあります。本研究は、カウンセリングの質を向上させるために、ドメイン固有で臨床的に検証された知識をLLMに体系的に組み込む方法に関するギャップに取り組みます。私たちは、パラ・カウンセラー（準カウンセラー）を支援することを目的に、2つのアプローチ、検索拡張生成（RAG）と知識グラフ（KG）に基づく手法を利用し、比較します。私たちのKGは手作業で構築され、臨床的に検証されており、ストレッサー、介入、アウトカムの因果関係を、多分野の人々の貢献によって捉えています。両設定において、複数のLLMを、BERTScore F1およびSBERTコサイン類似度で評価し、さらに5つの指標にわたる人手による評価も行いました。この人手評価は、表面的な類似度だけではなく、カウンセリングの有効性を直接測定することを目的としています。その結果、KGベースのアプローチは、RAG単独と比べて、文脈上の関連性、臨床的な適切さ、実用上の使いやすさを一貫して改善することが示されました。これは、構造化され、専門家によって検証された知識が、カウンセリング課題におけるLLMの制約に対処するうえで重要な役割を果たすことを示しています。