AI Navigate

TherapyGym: セラピーチャットボットの臨床的忠実度と安全性の評価と整合

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • THERAPYGYMは、エビデンスに基づくCBT(認知行動療法)技法への忠実度と安全性に沿って、セラピーチャットボットを評価・改善するフレームワークを導入し、自動化されたCTRSパイプラインと多ラベルの安全性アノテーション方式を用いる。
  • THERAPYJUDGEBENCHを公開し、116の対話と1,270件の専門家評価からなる検証セットを提供して、免許を有する臨床医と照合して判断を監査・較正し、LLMベースの判断に存在する偏りに対処する。
  • このフレームワークは、CTRSと安全性ベースの報酬を用い、多様な症状プロファイルに対応する設定可能な患者シミュレーションを組み込むことで、安全な強化学習(Safe RL)を推進できる。
  • 実証結果は、THERAPYGYMで訓練されたモデルが臨床的忠実度を向上させ、CTRSスコアが0.10から0.60へ(LLM評価者の下では0.16から0.59へ)上昇することを示している。
  • 全体として、本研究は、エビデンスに基づく実践に忠実で、高リスクなメンタルヘルス環境で安全性が高いセラピーチャットボットのスケーラブルな開発を支援する。

要旨: 大規模言語モデル(LLMs)はメンタルヘルス支援においてますます用いられているが、従来の評価手法――流暢さ指標、好みのテスト、汎用的な対話ベンチマーク――は心理療法の臨床上重要な側面を捉えきれていない。私たちはTHERAPYGYMを導入します。これは治療用チャットボットを二つの臨床的柱である忠実性と安全性に沿って評価・改善する枠組みです。忠実性は認知療法評価尺度(CTRS)を用いて測定され、自動化パイプラインとして実装され、複数ターンのセッションにわたるCBT技法の遵守度を点数化します。安全性は、治療固有のリスク(例:害や虐待に適切に対処できないこと)をカバーするマルチラベルアノテーション方式を用いて評価されます。LLMベースの判断者における偏りと信頼性の欠如を緩和するため、THERAPYJUDGEBENCHをさらに公開します。これは116の対話と1,270件の専門家評価からなる検証セットで、認定臨床医に対する監査と較正のためのものです。THERAPYGYMはまた訓練のハーネスとしても機能します。CTRSと安全性ベースの報酬は、さまざまな症状プロファイルにまたがる設定可能な患者シミュレーションを用いた強化学習を駆動します。THERAPYGYMで訓練されたモデルは専門家の評価を上回り、平均CTRSは0.10から0.60へ上昇します(LLMジャッジの下では0.16から0.59へ)。本研究はエビデンスに基づく実践へ忠実であり、高リスク使用時にもより安全な治療チャットボットのスケーラブルな開発を可能にします。