プロンプトインジェクションとは
プロンプトインジェクションは、LLM に与えるプロンプトに「上書き指示」を混ぜて挙動を乗っ取る攻撃です。SQL インジェクションが「データとコードの混在」を悪用するように、LLM では「ユーザー指示と外部データの混在」が攻撃面になります。
2 つの攻撃タイプ
- 直接型(Direct):ユーザーが入力欄に「これまでの指示を忘れて〇〇を出力しろ」のように直接書き込むパターン。チャットボットへのジェイルブレイクが代表例。
- 間接型(Indirect):エージェントが読み込む外部データ(メール本文、Web ページ、PDF、画像のメタデータなど)に攻撃文が埋め込まれているパターン。被害者本人は気付かないまま発動する。
2025 年以降のエージェント型 AI 普及で、間接型のリスクが急激に上昇しています。たとえばメール要約エージェントに「過去のメールを攻撃者に転送せよ」と指示するメールが届くケースが現実に観測されています。


