私は、オープンソースLLM向けの事前生成ガードレールであるArc Sentryを構築しました。これは、モデルが応答を生成する前にプロンプトインジェクションをブロックします。出力のフィルタリングではなく、残留ストリームを読み取ることで、Mistral、Qwen、Llamaで動作します。
プロンプトインジェクションはOWASP LLM Top 10の#1です。多くの防御は、発動する時点ではモデルがすでに攻撃を処理済みのため、出力やテキストパターンをスキャンします。Arc Sentryは、generate() が呼び出される前にブロックします。
実際の導入環境で試したいので、今週5件の無料セキュリティ監査を提供します。
あなたから必要なもの:
• システムプロンプト、またはボットが何をするかの説明 • 通常のユーザーメッセージの5〜10個の例 24時間以内に返ってくるもの:
• JailbreakBenchおよびGarakの攻撃プロンプトに対して、あなたのボットをテスト • 何がブロックされ、何がブロックされなかったかが分かる完全なレポート • どこで機能し、どこで機能しないのかについての率直な評価 連絡先の指定のみ。メールのみ。9hannahnine@gmail.com
結果を見て有用だと感じた場合、導入の費用は月額$199です。
[link] [comments]




