EthicMind:マルチターン対話における倫理的・感情的アラインメントのためのリスク認識フレームワーク

arXiv cs.CL / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチターン対話における「倫理的・感情的アラインメント」を、ターン単位の意思決定枠組みとして定式化する。これは、倫理的安全性と情緒的同調(attunement)を別々に扱った場合に失敗が起きることに動機づけられている。
  • それに基づき、本論文は EthicMind という、推論時に倫理的リスク指標と変化するユーザーの感情を同時に考慮するリスク認識型推論フレームワークを提案する。これにより、応答戦略を計画し、文脈に応じた返信を生成する。
  • EthicMind は、追加のモデル学習を必要とせずにアラインメント挙動を改善するよう設計されている。具体的には、ターンをまたいだ推論中の判断を適応させることで実現する。
  • 著者らはさらに、文脈を考慮したユーザーシミュレーションを用いた、リスク層別のマルチターン評価プロトコルも開発し、高リスクかつ道徳的に曖昧な状況での挙動を検証する。
  • 実験の結果、EthicMind はベースライン手法よりも、特に倫理的複雑性が高い場合に、より一貫した倫理的ガイダンスと感情面での関与を提供することが示された。