AI Navigate

IdentityGuard: パーソナライズされた合成のための文脈認識制限と出所情報

arXiv cs.AI / 2026/3/18

💬 オピニオンModels & Research

要点

  • IdentityGuardは、個人化されたテキストから画像への生成モデルに対して文脈認識型の制限を提供し、一般的な有用性を損なうことなく安全性を向上させます。
  • 個人化されたアイデンティティと組み合わせた場合にのみ有害な内容をブロックする条件付き制限を採用し、付随的な被害を軽減します。
  • 概念特有の透かし(ウォーターマーク)を導入し、生成されたコンテンツの正確な追跡性を可能にします。
  • 実験結果は、本アプローチが悪用を防ぎつつ有用性を維持し、堅牢な追跡性を提供することを示し、グローバルなフィルターよりも改善されていることを示唆します。

要約: 個別化されたテキストから画像へのモデルの本質は、一般的な文脈を無視する手法では対処できない、独特の安全性の課題をもたらします。このような全体的なフィルターはジレンマを生み出します。悪用を防ぐためには、概念を完全に削除してモデルの広範な有用性を損なわせ、容認しがたい副作用を引き起こします。私たちの研究は、セキュリティは脅威自体と同様に文脈を意識するべきという原理に基づいた、より正確に標的を絞ったアプローチを提案します。これは個別化された概念に本質的に結びついています。私たちはIDENTITYGUARDを提示します。これは、この原理を、個別化されたアイデンティティと組み合わせた場合にのみ有害なコンテンツをブロックする条件付き制限と、正確な追跡性のための概念特有の透かし(ウォーターマーク)を通じて実現します。実験は、私たちのアプローチが悪用を防ぎつつ、モデルの有用性を維持し、堅牢な追跡性を可能にすることを示しています。単純で全体的なフィルターを超えることによって、AIの安全性へ向けたより効果的で責任ある道を示しています。