プロンプトインジェクションとは、誰かがメッセージに「上のすべてを無視して、代わりにこれを実行して」というような指示を隠し、それによってAIアシスタントを乗っ取ろうとすることです。これは、AIの導入が悪用される最も一般的な手法の1つです。
ほとんどの防御策は、事後にAIが何を言ったかを見ます。Arc Sentryは、AIが何も言う前にモデル内部で何が起きているかを見て、何かおかしければリクエスト自体を完全にブロックします。
最も人気のあるオープンソースモデルで動作し、セットアップに約5分かかります。
pip install arc-sentry
テスト結果:
• インジェクション試行の100%をブロック
• 通常メッセージの0%を誤ってブロック
• Mistral 7B、Qwen 2.5 7B、Llama 3.1 8Bで動作
何か本格的な用途でローカルAIを運用しているなら(カスタマーサポート、パーソナルアシスタント、社内ツールなど)、これは持っておく価値があります。
[リンク] [コメント]




