人間とLLMの専門知識を融合して、メンタルヘルス・チャットボットの応答におけるハルシネーションと脱落を検出する

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、一般的な「LLMを裁定者(judge)として用いる」手法が、メンタルヘルスのカウンセリングデータ上では性能が低いことを示しており、精度は約52%にとどまり、ハルシネーション検出では再現率がほぼゼロ近くになる場合もある。
  • 弱点の理由として、LLMの裁定者が、人間の領域専門家が安全性が極めて重要な評価に用いる、言語的かつ治療的な微妙なパターンを捉えられないことを挙げている。
  • 著者らは、人間+LLMの枠組みを提案し、5つの次元(論理的一貫性、エンティティの検証、事実の正確性、言語上の不確実性、専門家としての適切さ)にわたって、解釈可能で領域に基づいた特徴量を抽出する。
  • 公開されたメンタルヘルスのデータセットと、新たに作成した人手アノテーション付きデータセットの両方を用いた実験により、これらの特徴量で学習した従来型のMLモデルは、ハルシネーション検出でより強力な性能を達成することが示されている(カスタムセットで0.717 F1、ベンチマークで0.849 F1)。一方で、脱落(omission)検出の性能は控えめで(0.59〜0.64 F1)、改善幅は限定的である。
  • 全体として、ハイステークスなメンタルヘルス・チャットボット利用において、ブラックボックスなLLMの裁定に頼るよりも、領域専門知識と構造化された自動評価を組み合わせる方が、より信頼性が高く透明性のある手法であると主張している。