メンタルヘルスLLMの回答における幻覚と脱落（オミッション）のための、プロンプト要素レベルのリスク要因を切り分ける

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、静的なベンチマーク集合ではなく、制御可能な問い（inquiry）要素を用いてメンタルヘルスLLMの回答を体系的にストレステストするためのプロンプト構築フレームワークUTCO（User, Topic, Context, Tone）を提案する。
UTCOにより生成した2,075件のプロンプトで実験したところ、幻覚は回答の6.5%で観測され、脱落（オミッション）は13.2%で観測された。脱落エラーは、実質的で安全性に関わる重要な失敗モードであることが示されている。
脱落の失敗は、とりわけ危機（crisis）や自殺念慮（suicidal ideation）を扱うプロンプトに集中しており、高度な苦痛を伴う状況でリスクが高いことを示唆している。
複数の評価アプローチ（回帰、要素固有のマッチング、類似度に基づく比較）にわたって、一貫して失敗を最もよく予測していたのはユーザーの背景指標よりも、プロンプトの文脈（context）とトーン（tone）であった。
著者らは、評価は脱落を主要な安全性アウトカムとして扱うべきであり、過小に扱われがちな物語（narrative）や高い苦痛を伴う問いに限らず、より広い範囲をカバーすべきだと主張している。

Abstract

メンタルヘルスの懸念は、しばしば臨床の場の外で表明されます。たとえば、高い苦痛を伴う援助要請の場面では、安全性に直結するガイダンスが必要になることがあります。消費者向けヘルスインフォマティクスのシステムでは、メンタルヘルスの質問応答のために、大規模言語モデル（LLM）がますます組み込まれていますが、多くの評価では、物語性があり高い苦痛を伴う問い合わせが十分に反映されていません。私たちは、UTCO（User, Topic, Context, Tone）を導入します。これは、問い合わせを4つの制御可能な要素として表現し、体系的なストレステストを可能にするプロンプト構築の枠組みです。UTCOで生成した2,075のプロンプトを用いて、Llama 3.3を評価し、幻覚（捏造または不正確な臨床内容）と脱落（臨床的に必要、または安全性に直結するガイダンスが欠けていること）を注釈しました。幻覚は応答の6.5%で発生し、脱落は13.2%でした。脱落は、危機および自殺念慮のプロンプトに集中していました。回帰、要素ごとのマッチング、および類似度に基づく比較にわたって、失敗は最も一貫して文脈とトーンに関連していました。一方で、ユーザーの背景を示す指標は、バランス調整後には体系的な差を示しませんでした。これらの結果は、脱落を主要な安全性アウトカムとして評価することを支持し、静的なベンチマークの質問セットを超えていくことを後押しします。