会話型AIにおける破綻：感情的かつ倫理的にセンシティブな文脈での相互作用の失敗

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

心理的なパーソナと制御された感情のペーシングを用いて、現実的な対話の軌跡を引き起こすためのマルチターン・ストレステストを実行する、パーソナに条件付けされたユーザー・シミュレータを導入する。

要旨: 対話型AIは、感情が強く、かつ倫理的に配慮を要する相互作用の中で、ますます多くの場面に導入されている。これまでの研究は主として感情に関するベンチマークや静的な安全性チェックに焦点を当ててきたが、変化し続ける会話の中でアラインメント（整合）がどのように展開されるのかは見落とされてきた。本研究では、研究課題として次を探る。すなわち、対話エージェントが感情的かつ倫理的にセンシティブなふるまいに直面したとき、どのような不具合（破綻）が生じ、そしてそれらが対話の質にどのように影響するのかである。チャットボットの性能をストレステストするために、心理的なペルソナを用い、段階的な感情の時間配分を伴いながら多ターンの対話に参加可能な、ペルソナ条件づけユーザーシミュレータを開発する。分析の結果、主流のモデルでは、感情の軌道がエスカレートするにつれて強化される反復的な破綻が見られることがわかった。致命的な失敗パターンとして、感情面での不整合、倫理的ガイダンスの失敗、そして共感が責任を上回る／あるいは損なってしまうという次元をまたいだトレードオフなど、いくつかの共通パターンを特定する。これらのパターンをタクソノミー（分類体系）として整理し、設計上の示唆を議論する。その中で、動的な相互作用の全期間を通じて、倫理的な一貫性と感情面でのセンシティビティを維持する必要性があることを強調する。本研究は、価値に配慮した、かつ感情的に強い状況における対話型AIの診断と改善に関して、HCIコミュニティに新たな視点を提供する。