AI Navigate

プロンプト注入の協同活性化パターン検出:スパース自己符号化器を用いた機構的解釈性アプローチ

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本投稿は、スパース自己符号化器と協同活性化パターンを用いたプロンプト注入検出に関する論文を紹介し、110の攻撃カテゴリにわたる2,067件のペイロードで検出率95.2%を報告しています。
  • 偽陽性を単一特徴スコアリングより約14倍低く抑えることを指摘し、Gemma Scope SAEs(層6/12/18)とFP-Growthで抽出された協同活性化パターンの使用を説明しています。
  • 信頼境界とBOSトークンの除外、さらに消費者向けGPU上でのp95レイテンシ8.6msを挙げ、実用的なデプロイ潜在性を示しています。
  • 著者がarXiv提出のための承認を求めていることを述べ、PDFと承認ページへのリンクを提供しています。
  • 本研究を、プロンプト注入に対する機構的解釈性アプローチとして位置づけ、AIの安全性研究に貢献するとしています。

やあ、 r/LocalLLaMA

短いお願いです — 私の初めてのarXiv論文を提出する予定で、1名の推薦者を必要としています。

主な成果:

• 2,067件のホールドアウトペイロードに対する検出率95.2%(110の攻撃カテゴリ)

• 単一特徴量スコアリングより偽陽性を14倍低減

• Gemma Scope SAEs(層6/12/18)を使用 + FP-Growthで抽出された結合共活性パターン

• 信頼境界 + BOSトークンの除外

• コンシューマーGPU上のp95レイテンシ8.6 ms

PDF(全論文): https://drive.google.com/file/d/1GTQpR0o1Uz_conkQJexlQLR5FCvE3QNs/view

承認リンク: https://arxiv.org/auth/endorse?x=BPLUNM

承認は非常に迅速です(30秒程度)。方法、結果、実装に関する質問があれば喜んでお答えします。

本当にありがとうございます — このコミュニティの皆さんの助けに心から感謝します!

投稿者 /u/Concert_Dependent
[リンク] [コメント]