やあ、 r/LocalLLaMA、
短いお願いです — 私の初めてのarXiv論文を提出する予定で、1名の推薦者を必要としています。
主な成果:
• 2,067件のホールドアウトペイロードに対する検出率95.2%(110の攻撃カテゴリ)
• 単一特徴量スコアリングより偽陽性を14倍低減
• Gemma Scope SAEs(層6/12/18)を使用 + FP-Growthで抽出された結合共活性パターン
• 信頼境界 + BOSトークンの除外
• コンシューマーGPU上のp95レイテンシ8.6 ms
PDF(全論文): https://drive.google.com/file/d/1GTQpR0o1Uz_conkQJexlQLR5FCvE3QNs/view
承認リンク: https://arxiv.org/auth/endorse?x=BPLUNM
承認は非常に迅速です(30秒程度)。方法、結果、実装に関する質問があれば喜んでお答えします。
本当にありがとうございます — このコミュニティの皆さんの助けに心から感謝します!
[リンク] [コメント]
