関係性を意識したマルチモーダルLLMsの安全性のアンラーニング

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

生成型のマルチモーダルモデルは、本質的に関係性を伴う安全性の失敗を示すことがあり、特定のアクションや関係で結びつけられると、2つの無害な概念が不安全になる。
本論文は関係性を意識した安全性のアンラーニングを提案し、不安全なO-R-O（オブジェクト-関係-オブジェクト）タプルを明示的に表現し、対象を絞ったパラメータ効率の高い編集（LoRA）を適用して不安全なタプルを抑制しつつ、オブジェクトのマージナル分布と安全な隣接関係を保持する。
著者らはCLIPベースの実験を用いて手法を検証し、パラフレーズ、文脈依存、分布外の画像攻撃に対する頑健性を評価する。
個別の概念ではなく関係性の安全性に焦点を当てることで、アンラーニングによる副作用を低減し、善良な能力を損なうことなく安全性を向上させることを目指す。

要約: 生成的マルチモーダルモデルは、本質的に関係性を伴う安全性の失敗を示すことがあります。2つの無害な概念が、特定の動作や関係によって結びつけられると危険になることがあります（例：子どもがワインを飲む）。既存のアンラーニングおよび概念の抹消アプローチは、しばしば孤立した概念や画像-テキストのペアを対象とすることが多く、同じオブジェクトや関係の無害な使用に対して付随的な被害を生じさせる可能性があります。私たちは関係性を意識した安全性のアンラーニングを提案します。関係性を意識した安全性のアンラーニングは、O-R-O タプルを安全でないと明示的に表現し、ターゲットを絞ったパラメータ効率の高い編集（LoRA）を適用して、オブジェクトの周辺分布と安全な隣接関係を保持しつつ、安全でないタプルを抑制する枠組みです。CLIPベースの実験と、パラフレーズ、文脈的な変化、分布外の画像攻撃に対する堅牢性評価を含みます。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

関係性を意識したマルチモーダルLLMsの安全性のアンラーニング

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？