推論時の自己反省的メモリによるマルチモーダル大規模言語モデルの文脈安全性の進化

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、安全でない画像-テキストのペアに対して安全な反例を作成しつつ、基礎となる文脈を保持することで、マルチモーダルLLMの文脈安全性を評価するベンチマークとしてMM-SafetyBench++を提案する。
  • 彼らは、訓練を必要としないフレームワークEchoSafeを提案する。EchoSafe は自己反省的メモリーバンクを用いて、過去の対話から安全性の洞察を蓄積・検索し、推論時の文脈認識型安全判断を導く。
  • 広範な実験により、EchoSafe が複数のマルチモーダル安全性ベンチマークにおいて文脈安全性を向上させ、MLLMs(マルチモーダル大規模言語モデル)における安全性の進化に向けた強力なベースラインを確立することを示した。
  • ベンチマークデータとコードは、提供されたURLで公開されている。

要旨:多モーダル大規模言語モデル(MLLMs)は、視覚推論タスクの幅広い領域で顕著な性能を達成してきた一方で、安全性リスクに対する脆弱性は依然として喫緊の懸念事項である。これまでの研究は主に、明示的に安全でない入力を検出して拒否するジャイルブレイク対策に焦点を当ててきたが、そのようなアプローチは文脈上の安全性を見落とすことが多く、見かけ上似ていても安全意図が大きく異なる状況間の微妙な文脈差をモデルが識別する必要がある。本研究では、文脈安全性評価のために綿密に選定されたベンチマークMM-SafetyBench++を提案する。具体的には、各危険な画像とテキストのペアについて、ユーザーの意図を反転させつつ、基盤となる文脈的意味を保持する最小限の修正を施して対応する安全な対を構築し、文脈理解に基づいてモデルが安全挙動を適応できるかを統制された評価が可能になる。さらに、トレーニングを必要としないフレームワークEchoSafeを導入します。過去の対話から安全性に関する洞察を蓄積・取得する自己反省的なメモリーバンクを維持します。関連する過去の経験を現在のプロンプトに組み込むことにより、EchoSafeは文脈認識型の推論と推論中の安全挙動の継続的な進化を可能にします。さまざまな多モーダル安全性ベンチマークに関する広範な実験は、EchoSafeが一貫して優れた性能を達成することを示しており、MLLMにおける文脈安全性を前進させるための強力なベースラインを確立します。すべてのベンチマークデータとコードは https://echosafe-mllm.github.io で入手可能です。

推論時の自己反省的メモリによるマルチモーダル大規模言語モデルの文脈安全性の進化 | AI Navigate