理解がリスクになるとき:新興の画像生成パラダイムにおける真正性と安全性のリスク
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダルLLM(MLLM)が、拡散モデルよりも強い意味理解を提供しつつも、真正性および安全性に関する新たな種類のリスクを生み出し得ると主張する。
- 危険コンテンツのベンチマークにまたがる実験では、MLLMは拡散モデルよりも危険な画像を生成することが分かり、その一因として、拡散モデルが抽象的なプロンプトに失敗し、その結果、破損した(利用しにくい)出力を生成し得る点が挙げられる。
- 本研究では、既存の偽画像検出器がMLLMによって生成された画像に対してより苦戦することが示され、さらに、ユーザがより長く詳細な入力を与える場合には、MLLMに特化した再学習を行ってもバイパス(すり抜け)を完全には防げないことが分かった。
- 全体として、著者らはMLLM主導の安全リスクが十分に認識されておらず、画像の真正性に焦点を当てた実世界の安全システムに新たな課題を生み出すと結論づけている。
- 本研究は、画像生成の安全性評価を再構成し、危険な生成と、偽の合成/帰属(アトリビューション)の両側面において、MLLMを拡散モデルと比較することで捉え直す。