広告

エネルギー誘導型のテスト時変換による、大規模視覚言語モデルの対立的ロバスト性強化:検証可能なエネルギーガイドアプローチ

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模視覚言語モデル(LVLM)が対立的摂動に対して脆弱であることを扱い、対立的学習の代替としてテスト時変換を動機づける。
  • 学習不要の防御手法である Energy-Guided Test-Time Transformation(ET3)を提案し、エネルギー基準を最小化するように入力を変換することでロバスト性を高める。
  • 著者らは、妥当な仮定の下で、変換が正しい分類を保持したまま成功し得ることを理論的に正当化している。
  • 実験の結果、ET3は標準分類器やCLIPのゼロショット設定だけでなく、画像キャプション生成や視覚質問応答といったLVLMタスクにおいても対立的ロバスト性を改善することが示される。
  • 本研究には公開コードが付属しており、再現や実験が可能である(github.com/OmnAI-Lab/Energy-Guided-Test-Time-Defense)。

概要: マルチモーダルモデルおよび大規模視覚言語モデル(LVLM)の急速な進歩にもかかわらず、それらは敵対的摂動に対して依然として非常に脆弱であり、現実の利用における信頼性について深刻な懸念が生じている。敵対的学習は、敵対的攻撃に対して頑健なモデルを構築するための主流のパラダイムとして確立されつつある一方で、推論時変換(Test-Time Transformations; TTT)は、推論時の頑健性を高める有望な戦略として登場している。これを踏まえて本研究では、入力サンプルのエネルギーを最小化することで頑健性を向上させる、軽量で学習不要の防御手法であるエネルギー誘導型推論時変換(Energy-Guided Test-Time Transformation; ET3)を提案する。
本手法は、妥当な仮定の下で我々の変換が分類に成功することを証明する理論に基づいている。ET3が分類器に対して強力な防御を提供すること、さらにCLIPによるゼロショット分類において有効であることに加え、画像キャプション生成や視覚質問応答といったタスクでLVLMの頑健性を高めることも、広範な実験によって示す。コードは github.com/OmnAI-Lab/Energy-Guided-Test-Time-Defense で公開されている。

広告
エネルギー誘導型のテスト時変換による、大規模視覚言語モデルの対立的ロバスト性強化:検証可能なエネルギーガイドアプローチ | AI Navigate