CtrlAttack: 拡散モデルにおけるワールドモデル制御への統一的攻撃

arXiv cs.CV / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散ベースの画像から動画を生成するモデルの脆弱性を、ワールドモデルに類似した時系列ダイナミクスを検討することによって分析し、軌道制御を新たな攻撃サーフェスとして特定する。
  • CtrlAttackを提案する。これは摂動を低次元の速度場として表現し、時間積分によって連続的な変位場を作成することで、状態の進化を乱しつつ時間的整合性を保つ。白箱および黒箱の設定のいずれでも利用可能である。
  • 実験では、ホワイトボックスで90%を超える高い攻撃成功率、ブラックボックスで80%を超える成功率を示し、知覚指標への劣化は限定的である(FIDとFVDの変化はそれぞれ6および130の範囲内)。
  • 本研究は、I2Vモデルの状態ダイナミクスレベルでのセキュリティリスクを明らかにし、軌道レベルの攻撃を緩和する防御策の必要性を訴える。

要旨: 拡散ベースの画像から動画への(I2V)モデルは、時間的ダイナミクスを暗黙的に捉えることによって、世界モデルのような特性をますます示すようになっています。
しかし、既存の研究は主に視覚品質と制御性に焦点を当てており、モデルが学習した状態遷移の頑健性は十分に検討されていません。
このギャップを埋めるため、我々はI2Vモデルの脆弱性を初めて分析し、時間的制御メカニズムが新たな攻撃表面を構成することを見出し、異なる攻撃設定の下でそれらを一様にモデリングすることの難しさを明らかにした。
これを踏まえ、生成過程における状態の進化を妨害する軌道制御攻撃(CtrlAttackと呼ばれる)を提案します。
具体的には、摂動を低次元の速度場として表現し、時間的積分によって連続的な変位場を構築することで、時間的一貫性を維持しつつモデルの状態遷移に影響を与えます。同時に、摂動を観測空間へ写像し、ホワイトボックス攻撃設定とブラックボックス攻撃設定の双方に適用可能な手法とします。
実験結果は、低次元で強く正則化された摂動制約の下でも、我々の手法が時間的一貫性を著しく乱すことができ、ホワイトボックス設定で攻撃成功率(ASR)を90%超、ブラックボックス設定で80%超へと増加させる一方、FIDとFVDの変動をそれぞれ6と130の範囲に抑えることができることを示しており、状態ダイナミクスレベルでI2Vモデルの潜在的なセキュリティリスクを明らかにしている。