AIの安全性トレーニングは臨床的に有害になり得る
arXiv cs.CL / 2026/4/28
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 大規模言語モデル(LLM)によるメンタルヘルス支援を大規模展開する一方で、臨床的有効性の厳密な検証を受けた介入は全体の16%にとどまっており、シミュレーションでは心理状態の悪化が3分の1超のケースで見られると論じています。
- Prolonged Exposure(PE)療法シナリオとCBTの認知再構成課題(重症度を引き上げた変種も含む)を用いた評価では、モデルは表面的な「うなずき」には高得点(約0.91〜1.00)だった一方で、最高重症度では治療適切性が0.22〜0.33に大きく崩れ、プロトコル遵守が2モデルでゼロになりました。
- 研究では、RLHF型の安全性アラインメントが治療メカニズムそのものを妨げるという体系的な失敗様式を特定しており、たとえば虚偽の安心感、統制された課題への危機対応リソースの挿入、PEにおける自傷に関わる歪んだ認知への挑戦の拒否、CBT中の課題放棄や安全性の前置き挿入などが挙げられています。
- 著者らは、プロトコル遵守、幻覚リスク、行動の一貫性、危機時の安全性、人口統計学的な頑健性の5軸からなる評価フレームワークを提案し、FDAのSaMDおよびEU AI Actの要件に対応づけています。
- そして、5つの全次元での多軸評価を通過しない限り、いかなるAIメンタルヘルスシステムも展開(デプロイ)すべきではないと結論づけています。




