プロンプトインジェクションは、LLM に与えるプロンプトへ「上書き指示」を紛れ込ませ、AI の挙動を乗っ取る攻撃です。SQL インジェクションが「データとコードの混在」を突くように、LLM では「ユーザー指示と外部データの混在」が攻撃面になります。本稿では攻撃の型と典型事例を整理し、設計・実行・監視の三層で組む現実的な防御パターンまでを図とともに通します。
FIG.1 外部データに紛れた指示が LLM を乗っ取り、機密が攻撃者へ流出する
厄介なのは、これがソフトウェアの欠陥ではなく LLM の「指示に従う」という本質に根ざしている点です。完全な根絶は難しく、攻撃面を減らしつつ被害を局所化する設計思想が要になります。
01攻撃は「直接型」と「間接型」に分かれる
プロンプトインジェクションは、攻撃文がどこから入るかで大きく 2 つに分かれます。とくに 2025 年以降のエージェント型 AI 普及で、ユーザーが気付かないまま発動する間接型のリスクが急上昇しています。

