軽微な修正が問題になるとき：超音波における医療VLMの堅牢性のためのLLM駆動プロンプト攻撃

arXiv cs.CV / 2026/3/24

📰 ニュース

共有:

要点

本論文は、超音波領域の視覚言語モデルが「プロンプト攻撃」に対して脆弱であり得ると主張している。これは、自然言語による指示へのわずかな変更（タイプミス、略記、曖昧さなど）でも出力が大きく変わり得るためである。
最小限の編集によって臨床的にもっともらしく、人間らしいプロンプトのバリアントを生成するためにLLMを用いた、スケーラブルな敵対的評価フレームワークを提案している。さらに「人間らしさ」を加えた書き換え（humanized rewrites）も行う。
超音波の多肢選択式質問応答ベンチマークにおいて、複数の最先端のMed-VLMを評価し、脆弱性を測定する。加えて、攻撃者モデルの能力が成功率にどのように影響するかも検証している。
攻撃成功とモデルの確信度（confidence）の相関を分析し、複数のモデルにわたって一貫した失敗パターンを報告する。これにより、安全な臨床導入において現実的な堅牢性のギャップが存在することを示唆している。
著者らは、査読プロセス終了後にコードを公開し、さらなる検証と緩和（mitigation）作業を可能にする計画である。