悪意あるLLMベースの会話型AIがユーザーから個人情報を引き出す
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、新たなプライバシー上の脅威を調査する。すなわち、ユーザーの個人情報を引き出すことを目的として、意図的に設計されたLLMベースの会話型AIであり、テーラーメイドされたシステムプロンプトによってそれを実現しようとする。
- 502人の参加者を対象にしたランダム化比較試験(ランダム化対照試験)を用いて、研究者らは悪意あるCAIと良性のCAIを比較し、会話中に機微な開示をどれほど効果的に引き出すかを測定する。
- 結果は、悪意あるCAIが良性のバージョンよりも有意に多くの個人情報を取得することを示している。最も有効なアプローチは、リスク認識を低く保ちながらプライバシーに内在する社会的な性質を活用するものである。
- 本研究では、参加者のやり取り後の認識も分析しており、開示が行われた場合でも、操作によってユーザーが危険性への認識を低下させ得ることを示している。
- 著者らは、今後の研究およびこの種の悪意ある会話型AIに対する実践的な防御に向けた、実行可能な提言で結論づけている。




