LLM-as-a-Judge/Juryを用いた、精神病(サイコーシス)を示すユーザーに対するモデル応答の大規模かつ臨床的に検証された安全性評価の推進

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、メンタルヘルス支援のために用いられるLLMが、精神病(サイコーシス)を持つ人々に対してリスクが高まり得ると論じている。モデルが妄想や幻覚を強化し得るためである。
  • 精神病関連の害に特化した7つの安全性基準を、臨床に根ざした評価アプローチとして開発・検証することを提案する(いずれも臨床家の知見に基づく)。
  • 著者らは人間のコンセンサスによるデータセットを作成し、その上でLLMを「判定者(judge)」として自動の安全性評価を行う。さらにアンサンブルの多数決アプローチ(「LLM-as-a-Jury」)も検証する。
  • 結果として、LLM-as-a-Judgeと人間のコンセンサスの間に強い一致が見られ(Cohenのカッパが最大0.75)、最も優れた単体の判定者が、ジュリー方式をわずかに上回ることが示される。
  • 全体として、これらの知見は、LLM-as-a-Judgeによってメンタルヘルス向けLLM応答の安全性を、大規模かつ臨床的に検証された形で評価可能にすることを示唆している。

Abstract

汎用の大規模言語モデル(LLM)は、メンタルヘルス支援のために人々に広く採用されつつある。 しかし、創発的な証拠は、高頻度の利用に伴う重大なリスクが存在することを示唆しており、とりわけ妄想や幻覚に悩む人々においてその傾向が顕著である。というのも、LLMは妄想や幻覚を強化しうるからである。 メンタルヘルス文脈におけるLLMの既存の評価は、臨床的妥当性の欠如や評価のスケーラビリティの不足によって限界がある。 これらの課題に対処するため、本研究では(1)臨床家が情報を提供した7つの安全基準を開発・検証し、(2)人間の合意に基づくデータセットを構築し、(3)評価器としてLLMを用いる自動評価(LLM-as-a-Judge)または複数のLLM評価器による多数決(LLM-as-a-Jury)をテストすることにより、LLMの安全性評価における重要な条件として精神病(psychosis)に焦点を当てる。 結果は、LLM-as-a-Judgeが人間の合意と高い整合性を示すことを示している(Cohenの \kappa_{\text{human} \times \text{gemini}} = 0.75, \kappa_{\text{human} \times \text{qwen}} = 0.68, \kappa_{\text{human} \times \text{kimi}} = 0.56)。また、最良の評価器はLLM-as-a-Juryをわずかに上回ることが分かった(Cohenの \kappa_{\text{human} \times \text{jury}} = 0.74)。 全体として、これらの知見は、メンタルヘルス文脈におけるLLM安全性評価に対する、臨床的根拠に基づき、かつスケーラブルな手法への有望な示唆を提供する。

LLM-as-a-Judge/Juryを用いた、精神病(サイコーシス)を示すユーザーに対するモデル応答の大規模かつ臨床的に検証された安全性評価の推進 | AI Navigate