ContiGuard: 進化する回避的摂動に対抗する継続的有害性検知のフレームワーク

arXiv cs.CL / 2026/3/17

💬 オピニオンModels & Research

要点

  • ContiGuard は、既存の検出器を回避する進化する回避的摂動に対抗するための継続的有害性検知のフレームワークを提案します。
  • このアプローチは、新しい回避戦術が現れるにつれて継続的な適応を可能にすることで、静的な有害性検知器の限界に対処します。
  • このフレームワークは、時間を経ても堅牢な検知性能を維持し、新しいデータを取り込みつつ過去の知識の忘却を抑制することを目指します。
  • 本研究は、敵対的コンテンツに対する有害性検知システムの耐性を高めることで、より安全なオンライン環境を実現します。

要旨: 有害性検出は、有害なコンテンツの拡散を緩和し、健全なオンラインのソーシャル環境を守る(例:オンライン上のソーシャルアクション内の憎悪的なコメント、投稿、メッセージなど)。
しかし、悪意のあるユーザーは、有害なコンテンツを偽装し検出器を回避するための回避的な摂動を継続的に開発します。
従来の検出器や手法は時間とともに静的であり、これらの進化する回避戦術に対処するには不十分です。
したがって、継続学習は、進化する摂動に対して検出能力を動的に更新するための合理的なアプローチとして現れます。
それにもかかわらず、摂動間のばらつきが、攪乱されたテキストに対する検出器の継続学習を妨げます。
さらに重要なのは、摂動によって生じるノイズが意味論を歪め、理解を低下させ、検出を摂動に対して敏感にする重要な特徴学習も阻害するという点です。
これらは、進化する摂動に対して継続的な学習を行う際の課題を増大させます。
本研究では、時間的に進化する摂動テキスト上で検出器の継続学習に特化した最初の枠組み ContiGuard を提示します(これを継続的有害性検知と呼ぶ)。検出器が能力を継続的に更新し、進化する摂動に対して持続的な回復力を維持できるようにします。
具体的には、理解力を高めるために、LLM(大規模言語モデル)を用いた意味充実戦略を提示します。ここでは、LLM によって抽出される可能な意味や有害性関連の手掛かりを、攪乱されたテキストに動的に取り込み、理解を向上させます。
非クリティカルな特徴を軽減し、クリティカルな特徴を強化するために、識別性駆動型の特徴学習戦略を提案します。ここでは、識別的特徴を強化し、識別力の低い特徴を抑制することで、検知のための堅牢な分類境界を形成します...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →