要旨: テキストから画像への生成(T2I)モデルの目覚ましい合成能力にもかかわらず、コンテンツ違反からそれらを保護することは、依然として持続的な課題です。既存の安全性アライメントは主に、明示的な悪意ある概念に焦点を当てることが多く、微妙でありながらも重要な、合成意味論に起因するリスクを見落としがちです。この見落としに対処するため、私たちは新たな脆弱性を特定し、形式化します。それは「Multi-Concept Compositional Unsafety(MCCU)」であり、危険な意味は、個々には無害に見える概念同士の暗黙の関連付けから生じます。この定式化に基づき、私たちは包括的なベンチマーク「TwoHamsters」を導入します。これはMCCUの脆弱性を検証するために厳選された17.5k個のプロンプトから構成されます。最先端の10モデルと16の防御手法に対して厳密な評価を行った結果、8つの重要な知見が得られました。とりわけ、現在のT2Iモデルと防御手法には深刻なMCCUリスクがあることを示します。TwoHamstersにおいて、FLUXはMCCU生成成功率99.52%を達成する一方で、LLaVA-Guardは想起(recall)が41.06%にとどまります。これは、有害な合成生成を管理するための現在のパラダイムに重大な限界があることを浮き彫りにしています。
TwoHamsters:テキストから画像生成モデルにおける複数概念の合成的な不安全性のベンチマーク化
arXiv cs.CV / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチ概念合成的不安全性(MCCU)という新しいテキスト・ツー・イメージ(T2I)の安全性脆弱性を特定しており、個々には無害な概念同士の暗黙の連想によって危険な意味が生まれうるとします。
- その対策のために、MCCUリスクを検証することに特化した17.5k件のプロンプトから成るベンチマーク「TwoHamsters」を提案します。
- 10の最先端T2Iモデルと16の防御手法を評価した結果、MCCUの状況ではモデルと防御の双方が大きく失敗しうることが示されます。
- 具体的には、FLUXはMCCU生成成功率99.52%を達成し、LLaVA-Guardはリコール41.06%にとどまっており、危険な合成生成を扱う既存アプローチの重大な限界が浮き彫りになります。
- 本研究は、合成的な意味に起因する不安全生成に対してより効果的な防御へつなげるための8つの重要な洞察を提示します。



