サインを待っているなら——それではないかもしれません！視覚注入がビジョン・ランゲージのエージェント型システムに与える「信頼境界の混乱」の緩和

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、体内（現実環境）で動作するビジョン・ランゲージのエージェント型システムにおいて、「信頼境界の混乱」が起きる問題を扱い、正当な場面内信号（例：信号機）が誤誘導となる視覚注入に悪用されうることを示します。
二つの意図を持つデータセットと評価フレームワークを提案し、現行のLVLMベースのエージェントが、そのトレードオフ（有益な手がかりを活かす／誤りに従わない）を確実に両立できないことを明らかにします。
7つのLVLMエージェントを複数の体内環境でベンチマークし、構造ベースとノイズベースの2種類の視覚注入攻撃を評価します。
脆弱性への対策として、知覚と意思決定を分離し、視覚入力の信頼性を動的に評価するマルチエージェント型の防御フレームワークを提案します。
提案手法は、誤誘導行動を大幅に減らしつつ正しい応答は維持し、敵対的擾乱下でのロバスト性の保証も示しており、評価コードと成果物は公開されています。

要旨: 大規模ビジョン・言語モデル（LVLM）によって駆動される、身体化されたビジョン・言語エージェント型システム（VLAS）に関する近年の進展により、AIシステムは現実世界の場面を知覚し推論できるようになりました。この文脈において、信号機のような環境シグナルは、エージェントの行動に影響を与えうる、また与えるべき必須のインバンド信号です。しかし同様のシグナルは、ユーザーの意図を上書きしてセキュリティ上のリスクをもたらす、誤誘導となる視覚インジェクションとしても作り出し得ます。この二面性が、根本的な課題を生み出します。すなわち、エージェントは正当な環境の手がかりに応答しつつ、誤誘導に対しても頑健である必要があります。私たちはこの緊張関係を「信頼境界の混乱（trust boundary confusion）」と呼びます。この挙動を研究するために、二重意図データセットと評価フレームワークを設計し、それによって、現在のLVLMベースのエージェントはこのトレードオフを信頼性高く両立できていないことを示します。具体的には、有用なシグナルを無視するか、有害なものに従うかのいずれかになってしまいます。私たちは、構造ベースおよびノイズベースの視覚インジェクションの両方のもとで、複数の身体化環境において7つのLVLMエージェントを体系的に評価します。これらの脆弱性に対処するために、知覚と意思決定を分離し、視覚入力の信頼性を動的に評価するマルチエージェント防御フレームワークを提案します。私たちの手法は、正しい応答を維持しつつ、誤誘導的な振る舞いを大幅に低減し、敵対的な摂動下でも頑健性を保証します。評価フレームワークのコードと成果物は https://anonymous.4open.science/r/Visual-Prompt-Inject で公開されています。