メンタルヘルスLLMの回答における幻覚と脱落(オミッション)のための、プロンプト要素レベルのリスク要因を切り分ける
arXiv cs.CL / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、静的なベンチマーク集合ではなく、制御可能な問い(inquiry)要素を用いてメンタルヘルスLLMの回答を体系的にストレステストするためのプロンプト構築フレームワークUTCO(User, Topic, Context, Tone)を提案する。
- UTCOにより生成した2,075件のプロンプトで実験したところ、幻覚は回答の6.5%で観測され、脱落(オミッション)は13.2%で観測された。脱落エラーは、実質的で安全性に関わる重要な失敗モードであることが示されている。
- 脱落の失敗は、とりわけ危機(crisis)や自殺念慮(suicidal ideation)を扱うプロンプトに集中しており、高度な苦痛を伴う状況でリスクが高いことを示唆している。
- 複数の評価アプローチ(回帰、要素固有のマッチング、類似度に基づく比較)にわたって、一貫して失敗を最もよく予測していたのはユーザーの背景指標よりも、プロンプトの文脈(context)とトーン(tone)であった。
- 著者らは、評価は脱落を主要な安全性アウトカムとして扱うべきであり、過小に扱われがちな物語(narrative)や高い苦痛を伴う問いに限らず、より広い範囲をカバーすべきだと主張している。




