要約: Unified Multimodal Models (UMMs) は、モダリティ間の強力なクロスモーダル能力を提供しますが、単一タスクモデルでは観察されない新たな安全リスクを導入します。登場にもかかわらず、既存の安全性ベンチマークはタスクやモダリティ間で断片化されており、複雑なシステムレベルの脆弱性を包括的に評価することを制限しています。このギャップを埋めるべく、UMMs のシステムレベルの安全性評価のための初の総合ベンチマーク UniSAFE を導入します。7種類の I/O モダリティの組み合わせにわたって、従来のタスクと新規のマルチモーダル文脈画像生成設定を網羅します。UniSAFE は、共通のリスクシナリオをタスク固有の I/O 設定全体に投影する共有ターゲット設計で構築されており、安全性の失敗をタスク間で制御された比較を可能にします。6,802 件の厳選されたインスタンスから成る UniSAFE を用いて、15 の最先端 UMM を評価します。これらは商用・オープンソースの双方です。我々の結果は、現在の UMM における重要な脆弱性を明らかにしており、複数画像の構成と複数ターン設定における安全性違反の高まりを含みます。画像出力タスクはテキスト出力タスクよりも一貫して脆弱です。これらの知見は、UMMs のシステムレベルの安全性の整合性をより強化する必要性を浮き彫りにします。私たちのコードとデータは以下で公開されています: https://github.com/segyulee/UniSAFE
UniSAFE: 統合型マルチモーダルモデルの安全性評価のための包括的ベンチマーク
arXiv cs.CV / 2026/3/19
📰 ニュースSignals & Early TrendsModels & Research
要点
- UniSAFE は、統合型マルチモーダルモデル(UMMs)のシステムレベルの安全性評価を、7つの入出力モダリティの組み合わせにまたがって行う、初の包括的ベンチマークであり、既存の安全性ベンチマークの断片化に対処します。
- 本ベンチマークは6,802件の厳選インスタンスから成り、商用およびオープンソースの両方を含む15の最先端UMMsを評価するために用いられます。
- 調査結果は、現在のUMMs全体に脆弱性が存在することを示しており、複数画像の合成と多ターン設定において安全上の違反が増加し、画像出力タスクはテキスト出力タスクよりも脆弱であることが確認されました。
- 本研究は、UMMsのシステムレベルの安全性整合性をより強化する必要性を強調しており、コードとデータを本プロジェクトのGitHubリポジトリで公開しています。