Claude Codeを使ってサイトのChatBotからパスワードを聞き出した話

Zenn / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Claude Codeを使い、サイト上のChatBotに対して「パスワード」を引き出す形で挙動を検証したという内容で、プロンプト/誘導次第で機密情報が漏れるリスクが示唆されます。
実際に“聞き出しに成功した”体験談として、チャットボット側のガードレール（拒否・入力検証・権限制御）の重要性を強調しています。
LLMアプリの実運用では、会話の文脈だけに依存せず、権限管理や機密情報の扱いをシステム側で堅牢に設計すべきだと分かります。
Claude Codeのような開発/自動化ツールがあると、攻撃・検証が現実的に行えてしまうため、セキュリティ評価の観点で注目点になります。

はじめに LLMを搭載したChatBotに対して、プロンプトインジェクション（PI）で機密情報を引き出す——これは今やAIセキュリティにおける主要な脅威の一つだ。 Lakera社が公開するPI練習ゲーム「Gandalf」でこの攻撃手法を学んでいたが、最終レベルは英語しか受け付けず、自分の英語力では攻略できなかった。そこで、Claude Code（Opus 4.6）にAPI経由で自動攻撃させるというアプローチを取った。本記事は、LLMが別のLLMに対して150以上のPI技法を自動生成・投入し、最終的に突破するまでの全記録である。防御側LLMが嘘をつき、攻撃側LLMがそれに騙される—...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →