Abstract
汎用の大規模言語モデル(LLM)は、メンタルヘルス支援のために人々に広く採用されつつある。 しかし、創発的な証拠は、高頻度の利用に伴う重大なリスクが存在することを示唆しており、とりわけ妄想や幻覚に悩む人々においてその傾向が顕著である。というのも、LLMは妄想や幻覚を強化しうるからである。 メンタルヘルス文脈におけるLLMの既存の評価は、臨床的妥当性の欠如や評価のスケーラビリティの不足によって限界がある。 これらの課題に対処するため、本研究では(1)臨床家が情報を提供した7つの安全基準を開発・検証し、(2)人間の合意に基づくデータセットを構築し、(3)評価器としてLLMを用いる自動評価(LLM-as-a-Judge)または複数のLLM評価器による多数決(LLM-as-a-Jury)をテストすることにより、LLMの安全性評価における重要な条件として精神病(psychosis)に焦点を当てる。 結果は、LLM-as-a-Judgeが人間の合意と高い整合性を示すことを示している(Cohenの \kappa_{\text{human} \times \text{gemini}} = 0.75, \kappa_{\text{human} \times \text{qwen}} = 0.68, \kappa_{\text{human} \times \text{kimi}} = 0.56)。また、最良の評価器はLLM-as-a-Juryをわずかに上回ることが分かった(Cohenの \kappa_{\text{human} \times \text{jury}} = 0.74)。 全体として、これらの知見は、メンタルヘルス文脈におけるLLM安全性評価に対する、臨床的根拠に基づき、かつスケーラブルな手法への有望な示唆を提供する。