この論文は、ICLR 2026における「Principled Design for Trustworthy AI — Interpretability, Robustness, and Safety across Modalities Workshop」で採択されました。
では、どのような点がその画像を「危険」にしているのでしょうか? 無害な画像と問題のある画像を体系的に区別することは難しい課題です。たとえば、侮辱的なジェスチャーやシンボルのような、画像に対するわずかな変化でも、安全性に関する意味合いが大きく変わり得ます。しかし、既存の画像安全性データセットは粗く、曖昧さが残っており、安全性ラベルを大まかに示すだけで、その違いを生み出す特定の特徴を分離できていません。そこで本研究では…
