要約: 生成的マルチモーダルモデルは、本質的に関係性を伴う安全性の失敗を示すことがあります。2つの無害な概念が、特定の動作や関係によって結びつけられると危険になることがあります(例:子どもがワインを飲む)。既存のアンラーニングおよび概念の抹消アプローチは、しばしば孤立した概念や画像-テキストのペアを対象とすることが多く、同じオブジェクトや関係の無害な使用に対して付随的な被害を生じさせる可能性があります。私たちは関係性を意識した安全性のアンラーニングを提案します。関係性を意識した安全性のアンラーニングは、O-R-O タプルを安全でないと明示的に表現し、ターゲットを絞ったパラメータ効率の高い編集(LoRA)を適用して、オブジェクトの周辺分布と安全な隣接関係を保持しつつ、安全でないタプルを抑制する枠組みです。CLIPベースの実験と、パラフレーズ、文脈的な変化、分布外の画像攻撃に対する堅牢性評価を含みます。
関係性を意識したマルチモーダルLLMsの安全性のアンラーニング
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 生成型のマルチモーダルモデルは、本質的に関係性を伴う安全性の失敗を示すことがあり、特定のアクションや関係で結びつけられると、2つの無害な概念が不安全になる。
- 本論文は関係性を意識した安全性のアンラーニングを提案し、不安全なO-R-O(オブジェクト-関係-オブジェクト)タプルを明示的に表現し、対象を絞ったパラメータ効率の高い編集(LoRA)を適用して不安全なタプルを抑制しつつ、オブジェクトのマージナル分布と安全な隣接関係を保持する。
- 著者らはCLIPベースの実験を用いて手法を検証し、パラフレーズ、文脈依存、分布外の画像攻撃に対する頑健性を評価する。
- 個別の概念ではなく関係性の安全性に焦点を当てることで、アンラーニングによる副作用を低減し、善良な能力を損なうことなく安全性を向上させることを目指す。


