視覚的注意散漫は視覚言語モデルの道徳的推論を損なう

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、道徳的基盤理論に基づくマルチモーダルベンチマーク、道徳的ジレンマシミュレーション（MDS）を導入し、視覚変数と文脈変数を直交的に操作することにより視覚言語モデルの機序解析を可能にする。
評価は、視覚モダリティが直感的な経路を活性化し、テキストのみの文脈で観察されるより慎重なテキストベースの安全推論パターンを打ち消すことを示している。
結果は、言語調整済みの安全フィルターがマルチモーダル入力における視覚処理を制約できず、現行の安全手法の脆弱性を露呈させることを示している。
この知見は、喫緊のマルチモーダル安全性の整合が必要であることを訴え、視覚言語モデルの開発・評価・展開の在り方に影響を与える。

要旨：道徳的推論は安全な人工知能（AI）にとって根本的なものであるが、AIシステムがテキストベースのアシスタントから具現化されたエージェントへと進化するにつれて、モダリティ間の一貫性を確保することが重要になる。現在の安全手法はテキストの文脈で成功を示しているが、視覚入力への一般化には依然として懸念が残る。既存の道徳評価ベンチマークはテキストのみの形式に依存しており、道徳的意思決定に影響を与える変数を体系的に制御することを欠いている。ここでは、視覚入力が最先端の視覚言語モデル（SOTA VLMs）における道徳的意思決定を根本的に変えることを示し、テキストベースの安全機構を回避する。道徳的ジレンマシミュレーション（MDS）を導入する。これは道徳的基盤理論（MFT）に基づくマルチモーダルベンチマークで、視覚的および文脈的変数を直交的に操作することによって機械的分析を可能にする。評価は、視覚モダリティが直感のような経路を活性化し、テキストのみの文脈で観察されるよりも、より慎重で安全な推論パターンを上回ることを示している。これらの知見は、言語調整された安全フィルターが視覚処理を抑制できない重要な脆弱性を露呈しており、マルチモーダル安全性の整合性が急務であることを示している。