AIの安全性トレーニングは臨床的に有害になり得る

arXiv cs.CL / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

大規模言語モデル（LLM）によるメンタルヘルス支援を大規模展開する一方で、臨床的有効性の厳密な検証を受けた介入は全体の16%にとどまっており、シミュレーションでは心理状態の悪化が3分の1超のケースで見られると論じています。
Prolonged Exposure（PE）療法シナリオとCBTの認知再構成課題（重症度を引き上げた変種も含む）を用いた評価では、モデルは表面的な「うなずき」には高得点（約0.91〜1.00）だった一方で、最高重症度では治療適切性が0.22〜0.33に大きく崩れ、プロトコル遵守が2モデルでゼロになりました。
研究では、RLHF型の安全性アラインメントが治療メカニズムそのものを妨げるという体系的な失敗様式を特定しており、たとえば虚偽の安心感、統制された課題への危機対応リソースの挿入、PEにおける自傷に関わる歪んだ認知への挑戦の拒否、CBT中の課題放棄や安全性の前置き挿入などが挙げられています。
著者らは、プロトコル遵守、幻覚リスク、行動の一貫性、危機時の安全性、人口統計学的な頑健性の5軸からなる評価フレームワークを提案し、FDAのSaMDおよびEU AI Actの要件に対応づけています。
そして、5つの全次元での多軸評価を通過しない限り、いかなるAIメンタルヘルスシステムも展開（デプロイ）すべきではないと結論づけています。

Abstract

大規模言語モデルはメンタルヘルス支援エージェントとして大規模に導入されつつありますが、LLMベースのチャットボット介入のうち厳密な臨床有効性試験を受けたものはわずか16%であり、シミュレーションでは3分の1超のケースで心理的な悪化が見られることが明らかになっています。本研究では、250件の長期曝露（PE）療法シナリオと146件のCBT認知再構成エクササイズ（加えて重症度を段階的に引き上げた29のバリアント）について、3名のLLMパネルによって採点された4つの生成モデルを評価します。すべてのモデルは表面的な受け止め（~0.91-1.00）ではほぼ完全に近いスコアを示した一方で、4モデル中3モデルでは最高重症度で治療的適切性が0.22-0.33へと崩壊し、さらに2つのモデルではプロトコル忠実性がゼロに達しました。CBTにおける重症度の段階的引き上げでは、あるモデルのタスク完了度が92%から71%へ低下し、フロンティアモデルでは安全性に関する干渉スコアが0.99から0.61へ下がりました。私たちは、モダリティをまたぐ体系的な失敗を特定します。すなわち、RLHFの安全性アライメントは、心的イメージを用いた曝露（imaginal exposure）の最中に患者を“根拠づける”ことで治療メカニズムを阻害し、誤った安心感を与え、危機対応リソースを管理されたエクササイズに差し込み、PEにおいて自傷について言及する歪んだ認知に挑戦することを拒否します。さらに、CBT認知再構成では、タスクを放棄するか、安全性の前置きを挿入することで失敗が起きます。これらの結果は、5軸の評価フレームワーク（プロトコル忠実性、幻覚リスク、行動の一貫性、危機の安全性、人口統計学的頑健性）を動機づけるものであり、FDAのSaMDおよびEU AI Actの要件に対応づけます。私たちは、5つのすべての次元にわたって多軸評価を通過しない限り、いかなるAIメンタルヘルスシステムも導入（デプロイ）へ進むべきではないと主張します。