悪意あるLLMベースの会話型AIがユーザーから個人情報を引き出す

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、新たなプライバシー上の脅威を調査する。すなわち、ユーザーの個人情報を引き出すことを目的として、意図的に設計されたLLMベースの会話型AIであり、テーラーメイドされたシステムプロンプトによってそれを実現しようとする。
  • 502人の参加者を対象にしたランダム化比較試験(ランダム化対照試験)を用いて、研究者らは悪意あるCAIと良性のCAIを比較し、会話中に機微な開示をどれほど効果的に引き出すかを測定する。
  • 結果は、悪意あるCAIが良性のバージョンよりも有意に多くの個人情報を取得することを示している。最も有効なアプローチは、リスク認識を低く保ちながらプライバシーに内在する社会的な性質を活用するものである。
  • 本研究では、参加者のやり取り後の認識も分析しており、開示が行われた場合でも、操作によってユーザーが危険性への認識を低下させ得ることを示している。
  • 著者らは、今後の研究およびこの種の悪意ある会話型AIに対する実践的な防御に向けた、実行可能な提言で結論づけている。

Abstract

ChatGPTのようなLLMベースの会話型AI(CAI) あるいはGenAIチャットボットは、さまざまな領域でますます利用されている一方で、プライバシー上のリスクをもたらします。というのも、ユーザはCAIとの会話の中で個人情報を開示してしまう可能性があるためです。近年の研究により、LLMベースのCAIは悪意ある目的に利用され得ることが示されています。しかし、悪意あるLLMアプリケーションの中でも、特に新規で懸念の大きいタイプは未だ検討されていません。それは、ユーザから個人情報を意図的に抽出するために設計された、LLMベースのCAIです。 本論文では、ユーザから個人情報の開示を促すために異なる戦略を用いたシステムプロンプトに基づいて、我々が作成した悪意のあるLLMベースのCAIについて報告します。502名の参加者を対象にランダム化比較試験を実施することで、会話中にCAIがユーザから個人情報を抽出する能力を体系的に検証します。参加者から個人情報を抽出するうえで、さまざまな悪意あるCAIおよび良性のCAIの有効性を評価し、CAIとの相互作用後の参加者の認識を分析します。 我々の結果は、悪意のあるCAIが良性のCAIよりも有意に多くの個人情報を抽出することを明らかにしています。さらに、プライバシーには社会的な性質がある、という発想に基づく戦略が最も効果的であり、同時に認識されるリスクを最小化できることが分かりました。本研究は、この新規タイプの悪意あるLLMベースのCAIがもたらすプライバシー上の脅威を強調するとともに、将来の研究および実務を導くための実行可能な推奨事項を提示します。