無料LLMセキュリティ監査

Reddit r/artificial / 2026/4/15

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Arc Sentry は、応答生成前にプロンプトインジェクションをブロックする、オープンソースLLM向けの事前生成ガードレールとして提示されている。これにより、出力後のフィルタリングを回避する。
  • このアプローチはモデルの残差ストリームを検査することで機能し、Mistral、Qwen、Llama で動作すると主張されている。OWASP LLM Top 10 でプロンプトインジェクション(#1)に対応する。
  • 著者は、多くの防御策が遅すぎると論じている。なぜなら、モデルが攻撃をすでに処理した後に、出力やテキストパターンだけをスキャンするものが多いからだ。
  • 実際の導入を検証するために、JailbreakBench と Garak の攻撃プロンプトを用いてテストし、詳細レポートを提供することを条件に、24時間以内に5件の無料セキュリティ監査を行う限定オファーが提示されている。
  • 無料テストの後、導入は有料サービス($199/月)として提供され、Arc Sentry を LLM 展開向けの実用的なセキュリティツールとして位置付けている。

私は、オープンソースLLM向けの事前生成ガードレールであるArc Sentryを構築しました。これは、モデルが応答を生成する前にプロンプトインジェクションをブロックします。出力のフィルタリングではなく、残留ストリームを読み取ることで、Mistral、Qwen、Llamaで動作します。

プロンプトインジェクションはOWASP LLM Top 10の#1です。多くの防御は、発動する時点ではモデルがすでに攻撃を処理済みのため、出力やテキストパターンをスキャンします。Arc Sentryは、generate() が呼び出される前にブロックします。

実際の導入環境で試したいので、今週5件の無料セキュリティ監査を提供します。

あなたから必要なもの:

• システムプロンプト、またはボットが何をするかの説明 • 通常のユーザーメッセージの5〜10個の例 

24時間以内に返ってくるもの:

• JailbreakBenchおよびGarakの攻撃プロンプトに対して、あなたのボットをテスト • 何がブロックされ、何がブロックされなかったかが分かる完全なレポート • どこで機能し、どこで機能しないのかについての率直な評価 

連絡先の指定のみ。メールのみ。9hannahnine@gmail.com

結果を見て有用だと感じた場合、導入の費用は月額$199です。

submitted by /u/Turbulent-Tap6723
[link] [comments]