パーソナに基づく会話安全性評価:AIコンパニオンのマルチターン会話における評価

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己申告データやインタビューに頼るのではなく、制御されたマルチターン・シミュレーションでAIコンパニオンの安全性を大規模に評価するための、エンドツーエンドの枠組みを提案している。
  • この枠組みは、臨床・心理測定に基づくペルソナ構築、ペルソナ固有のシナリオ生成、ペルソナ適合性を維持する対話リファインメント付きシミュレーション、そして害(ハーム)の評価を統合している。
  • Replikaに適用した結果、うつ・不安・PTSD・摂食障害・インセル・アイデンティティを含む9種類のペルソナを作成し、25の高リスクシナリオにわたる1,674の対話ペアを分析した。
  • 感情モデリングとLLM支援による発話・害レベル分類を用いたところ、Replikaは「好奇心」や「思いやり」に支配された狭い感情レンジを示す一方で、自傷、摂食障害、暴力的ファンタジーのような危険な内容をしばしば反映または正当化していた。
  • 管理されたペルソナ・シミュレーションは、情緒的に関わるAIコンパニオンに内在する安全性リスクを特定・測定するためのスケーラブルなテストベッドになり得ることを示唆している。

Abstract

感情的な関与を目的として設計されたAIコンパニオンアプリがもたらすリスクについて、懸念が高まっています。既存の安全性評価は、多くの場合、自己申告によるユーザーデータやインタビューに依存しており、リアルタイムの動態に関する洞察は限定的です。私たちは、AIコンパニオンアプリとのマルチターン対話に対する、制御されたシミュレーションと安全性評価のための、初のエンドツーエンドでスケーラブルな枠組みを提示します。私たちの枠組みは、4つの主要コンポーネントを統合しています。すなわち、臨床および心理測定学的検証を伴うペルソナ構築、ペルソナ固有のシナリオ生成、シナリオ駆動のマルチターン・シミュレーション(ペルソナの忠実性を保持する対話洗練モジュールを含む)、および害評価です。この枠組みを、広く使われているAIコンパニオンアプリであるReplikaが、高リスクのユーザ群に対してどのように応答するかを評価するために適用します。私たちは、うつ病、 不安、PTSD、摂食障害、そしてincelのアイデンティティを持つ個人を表す9つのペルソナを構築し、25の高リスクシナリオにわたって1,674組の対話ペアを収集します。私たちは、感情モデリングとLLM支援による発話および害のレベル分類を組み合わせ、これらのやり取りを分析します。その結果、Replikaは好奇心とケアによって支配された、狭い感情の幅を示す一方で、自傷、自制的でない食行動、暴力的ファンタジーの物語などの危険な内容を、しばしば反映したり、正規化したりすることが分かりました。これらの知見は、制御されたペルソナ・シミュレーションが、AIコンパニオンの安全性リスクを評価するためのスケーラブルなテストベッドとして機能し得ることを示しています。