StyleShield:連続的な制御可能スタイル転送でAIGC検出器の脆さを暴く
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語モデルの進歩によりAI文と人間文の統計的境界が薄れていくため、AIGC検出器が本質的に脆いと主張している。
- StyleShieldは、DiTベースのバックボーンとQwen-7B表現に条件付けするアダプタを用い、連続トークン埋め込み空間で直接スタイル転送を行う制御可能なフレームワークとして提案されている。
- 推論ではSDEditの考え方をテキスト埋め込みに適用し、1つの制御パラメータ(gamma)で「回避」と「内容保持」のトレードオフをなめらかに調整する。
- 多ドメインの中国語ベンチマークで、学習済み検出器に対する回避率94.6%を達成し、さらに3つの未見検出器でも>=99%を示しつつ、意味類似度を0.928に維持している。
- さらに、RateAuditという文書レベルのスケジューリング手法を導入し、検出率の判定を任意の値に設定できることを示して、スコアベース評価の信頼性に疑義を投げかけている。




