LLMの推論を分析してメンタルヘルスのスティグマをあぶり出す

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、メンタルヘルス領域での活用が進む一方で、大規模言語モデル(LLM)が心理的な条件を持つ人々に対してスティグマを示すことを明らかにしている。
  • 従来の評価(多肢選択式:MCQ)では、モデル内部の中間推論や内的な合理化に埋め込まれたバイアスを捉えられないと主張している。
  • 臨床の専門知識を用いてスティグマ的な言語のパターン分類(タクソノミー)を作成し、LLMの推論過程内で問題となる発話をタグ付けし、さらに偏見の明白さだけでなく害がより見えにくい微妙なバイアスまで含めて深刻度も評価している。
  • 推論領域を広げ、多様なスティグマのパターンを捉えるため、既存のメンタルヘルス・スティグマのベンチマークに追加の心理的条件を組み込んでいる。
  • 結果として、推論ステップの分析はMCQベースの評価よりもはるかに多くのスティグマを可視化し、論理の欠陥やメンタルヘルス理解の誤りを特定するのに役立つことが示されている。

要旨: 大規模言語モデル(LLM)はメンタルヘルス分野への応用がますます検討されている一方で、近年の研究では、心理的な状態をもつ人々に対してスティグマ(烙印)を示し得ることが明らかになっている。既存のスティグマ評価は主として多肢選択式問題(MCQ)に依拠しており、モデルの基盤となる論理に埋め込まれた偏見を十分に捉えられていない。本論文では、LLMの中間的な推論手順を分析することで、隠れたスティグマ的言語と、それを駆動する内部の根拠を明らかにする。臨床の専門知見を活用し、心理的な状態をもつ人々に向けられたスティグマ的言語に共通するパターンを分類し、この枠組みを用いてLLMの推論における問題のある発話を特定しタグ付けする。さらに、これらの発話の深刻度を評価し、露骨な偏見と、より微妙で即座には害を与えにくいバイアスとを区別する。推論領域を広げ、より多様なパターンを捉えるために、追加の心理的状態を組み込むことで、既存のメンタルヘルスのスティグマ・ベンチマークも拡張する。以上の結果は、モデルの推論を評価することが、従来のMCQベースの手法よりも実質的に多くのスティグマを露出させるだけでなく、LLMの論理とメンタルヘルス状態に対する理解の欠陥を特定するのにも役立つことを示している。