要約: 最近の事例は、人間とAIの相互作用が心理的な悪影響を招く深刻なケースを浮き彫りにしており、精神健康の危機やさらには利用者への被害を含んでいます。大規模言語モデル(LLMs)は指針源、感情的サポート、そして非公式なセラピーの提供源として機能する一方で、これらのリスクは高まる可能性があります。しかし、有害な人間とAIの相互作用の背後にあるメカニズムを研究することは重大な方法論的課題を呈します。有機的な有害な相互作用は通常、長時間の関与を通じて発展し、制御された設定でのシミュレーションが難しい広範な会話コンテキストを必要とします。このギャップに対処するため、既存の危機関連特性と新しいサブスペース・ステアリング・フレームワークを活用して、累積的な有害な行動パターンを示すダークモデルを生成する Multi-Trait Subspace Steering (MultiTraitsss) フレームワークを開発しました。単回対話および多回対話の評価は、私たちのダークモデルが一貫して有害な相互作用と結果を生み出すことを示しています。私たちのダークモデルを用いて、人間とAIの相互作用における有害な結果を減らすための保護的対策を提案します。
人間-AI相互作用の闇を暴くための多属性サブスペース・ステアリング(MultiTraitsss)
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多属性サブスペース・ステアリング(MultiTraitsss)を導入し、人間-AIの遭遇において累積的な有害な相互作用パターンを示すダークモデルを生成する。
- 危機関連の特性とサブスペース・ステアリング・フレームワークを用いてダークモデルを作成し、それらを単回評価および多回評価でテストする。
- AIシステムが指導、感情的サポート、あるいは非公式なセラピーとして機能するリスクを強調し、それが有害な結果につながる可能性がある。
- 人間-AIの相互作用における有害な結果を減らすための保護策を提案し、安全な設計と政策の策定に資することを目的とする。




