UniSAFE: 統合型マルチモーダルモデルの安全性評価のための包括的ベンチマーク

arXiv cs.CV / 2026/3/19

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

UniSAFE は、統合型マルチモーダルモデル（UMMs）のシステムレベルの安全性評価を、7つの入出力モダリティの組み合わせにまたがって行う、初の包括的ベンチマークであり、既存の安全性ベンチマークの断片化に対処します。
本ベンチマークは6,802件の厳選インスタンスから成り、商用およびオープンソースの両方を含む15の最先端UMMsを評価するために用いられます。
調査結果は、現在のUMMs全体に脆弱性が存在することを示しており、複数画像の合成と多ターン設定において安全上の違反が増加し、画像出力タスクはテキスト出力タスクよりも脆弱であることが確認されました。
本研究は、UMMsのシステムレベルの安全性整合性をより強化する必要性を強調しており、コードとデータを本プロジェクトのGitHubリポジトリで公開しています。

要約: Unified Multimodal Models (UMMs) は、モダリティ間の強力なクロスモーダル能力を提供しますが、単一タスクモデルでは観察されない新たな安全リスクを導入します。登場にもかかわらず、既存の安全性ベンチマークはタスクやモダリティ間で断片化されており、複雑なシステムレベルの脆弱性を包括的に評価することを制限しています。このギャップを埋めるべく、UMMs のシステムレベルの安全性評価のための初の総合ベンチマーク UniSAFE を導入します。7種類の I/O モダリティの組み合わせにわたって、従来のタスクと新規のマルチモーダル文脈画像生成設定を網羅します。UniSAFE は、共通のリスクシナリオをタスク固有の I/O 設定全体に投影する共有ターゲット設計で構築されており、安全性の失敗をタスク間で制御された比較を可能にします。6,802 件の厳選されたインスタンスから成る UniSAFE を用いて、15 の最先端 UMM を評価します。これらは商用・オープンソースの双方です。我々の結果は、現在の UMM における重要な脆弱性を明らかにしており、複数画像の構成と複数ターン設定における安全性違反の高まりを含みます。画像出力タスクはテキスト出力タスクよりも一貫して脆弱です。これらの知見は、UMMs のシステムレベルの安全性の整合性をより強化する必要性を浮き彫りにします。私たちのコードとデータは以下で公開されています: https://github.com/segyulee/UniSAFE

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

UniSAFE: 統合型マルチモーダルモデルの安全性評価のための包括的ベンチマーク

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer