推論時の自己反省的メモリによるマルチモーダル大規模言語モデルの文脈安全性の進化

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、安全でない画像-テキストのペアに対して安全な反例を作成しつつ、基礎となる文脈を保持することで、マルチモーダルLLMの文脈安全性を評価するベンチマークとしてMM-SafetyBench++を提案する。
彼らは、訓練を必要としないフレームワークEchoSafeを提案する。EchoSafe は自己反省的メモリーバンクを用いて、過去の対話から安全性の洞察を蓄積・検索し、推論時の文脈認識型安全判断を導く。
広範な実験により、EchoSafe が複数のマルチモーダル安全性ベンチマークにおいて文脈安全性を向上させ、MLLMs（マルチモーダル大規模言語モデル）における安全性の進化に向けた強力なベースラインを確立することを示した。
ベンチマークデータとコードは、提供されたURLで公開されている。

要旨：多モーダル大規模言語モデル（MLLMs）は、視覚推論タスクの幅広い領域で顕著な性能を達成してきた一方で、安全性リスクに対する脆弱性は依然として喫緊の懸念事項である。これまでの研究は主に、明示的に安全でない入力を検出して拒否するジャイルブレイク対策に焦点を当ててきたが、そのようなアプローチは文脈上の安全性を見落とすことが多く、見かけ上似ていても安全意図が大きく異なる状況間の微妙な文脈差をモデルが識別する必要がある。本研究では、文脈安全性評価のために綿密に選定されたベンチマークMM-SafetyBench++を提案する。具体的には、各危険な画像とテキストのペアについて、ユーザーの意図を反転させつつ、基盤となる文脈的意味を保持する最小限の修正を施して対応する安全な対を構築し、文脈理解に基づいてモデルが安全挙動を適応できるかを統制された評価が可能になる。さらに、トレーニングを必要としないフレームワークEchoSafeを導入します。過去の対話から安全性に関する洞察を蓄積・取得する自己反省的なメモリーバンクを維持します。関連する過去の経験を現在のプロンプトに組み込むことにより、EchoSafeは文脈認識型の推論と推論中の安全挙動の継続的な進化を可能にします。さまざまな多モーダル安全性ベンチマークに関する広範な実験は、EchoSafeが一貫して優れた性能を達成することを示しており、MLLMにおける文脈安全性を前進させるための強力なベースラインを確立します。すべてのベンチマークデータとコードは https://echosafe-mllm.github.io で入手可能です。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

推論時の自己反省的メモリによるマルチモーダル大規模言語モデルの文脈安全性の進化

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer