プロンプト注入の協同活性化パターン検出：スパース自己符号化器を用いた機構的解釈性アプローチ

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本投稿は、スパース自己符号化器と協同活性化パターンを用いたプロンプト注入検出に関する論文を紹介し、110の攻撃カテゴリにわたる2,067件のペイロードで検出率95.2%を報告しています。
偽陽性を単一特徴スコアリングより約14倍低く抑えることを指摘し、Gemma Scope SAEs（層6/12/18）とFP-Growthで抽出された協同活性化パターンの使用を説明しています。
信頼境界とBOSトークンの除外、さらに消費者向けGPU上でのp95レイテンシ8.6msを挙げ、実用的なデプロイ潜在性を示しています。
著者がarXiv提出のための承認を求めていることを述べ、PDFと承認ページへのリンクを提供しています。
本研究を、プロンプト注入に対する機構的解釈性アプローチとして位置づけ、AIの安全性研究に貢献するとしています。

やあ、 r/LocalLLaMA、

短いお願いです — 私の初めてのarXiv論文を提出する予定で、1名の推薦者を必要としています。

主な成果：

• 2,067件のホールドアウトペイロードに対する検出率95.2%（110の攻撃カテゴリ）

• 単一特徴量スコアリングより偽陽性を14倍低減

• Gemma Scope SAEs（層6/12/18）を使用 + FP-Growthで抽出された結合共活性パターン

• 信頼境界 + BOSトークンの除外

• コンシューマーGPU上のp95レイテンシ8.6 ms

承認は非常に迅速です（30秒程度）。方法、結果、実装に関する質問があれば喜んでお答えします。

本当にありがとうございます — このコミュニティの皆さんの助けに心から感謝します！

Dev.to

Dev.to

Dev.to

Dev.to

THE DECODER