基盤モデル時代におけるAIセキュリティ：統一的視点からの包括的サーベイ

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、機械学習（ML）におけるセキュリティ研究が断片化しすぎており、攻撃と防御を共有の枠組みの中で捉えるのではなく、互いに独立したものとして扱ってきたと主張する。
基盤モデルの設定では、データとモデルが密接に結び付けられているため、片方の脆弱性が他方を直接的に損なう可能性があることを強調する。
著者らは、モデルとデータの相互作用を4つの方向軸で捉える統一的なクローズドループ型の脅威分類法を提案する：Data→Data、Data→Model、Model→Data、Model→Model。
各カテゴリには、データの復号やウォーターマーク除去、ポイズニングやジェイルブレイク、モデルの反転やメンバーシップ推定、モデル抽出などの具体的な脅威タイプが対応付けられる。
本フレームワークは、基盤モデルに対するスケーラブルで転用可能かつクロスモーダルなセキュリティ戦略を開発するための基盤として提示される。

Abstract

機械学習（ML）システムが規模と機能の両面で拡大するにつれ、攻撃と防御の増加によりセキュリティ環境はますます複雑になってきました。しかし、既存の研究の多くはこれらの脅威を互いに切り離して扱っており、それらの共通原理や相互依存性を明らかにするための首尾一貫した枠組みが欠けています。この断片化された見方は、体系的な理解を妨げ、包括的な防御の設計を制限します。重要な点として、MLの2つの基盤的アセットである\textbf{data}と\textbf{models}はもはや独立ではありません。ある方への脆弱性が直接的にもう一方を危うくします。このような双方向のリスクがMLパイプライン全体にどのように伝播するかについては、全体論的な枠組みの欠如により未解決の問いが残っています。そこで本研究では、モデルとデータの相互作用を4つの方向軸で明示的に捉える\emph{統一されたクローズドループ脅威タクソノミー}を提案します。私たちの枠組みは、基盤モデルを分析し防御するための原理に基づく視座を提供します。得られる4つのセキュリティ脅威クラスは、相互に関連しつつも異なるカテゴリの攻撃を表します：（1）データ\rightarrowデータ（D\rightarrow D）：\emph{データ復号攻撃およびウォーターマーク除去攻撃}を含む；（2）データ\rightarrowモデル（D\rightarrow M）：\emph{ポイズニング、危害を与えるファインチューニング攻撃、ならびにジャイルブレイク攻撃}を含む；（3）モデル\rightarrowデータ（M\rightarrow D）：\emph{モデル反転、メンバーシップ推論攻撃、ならびに学習データ抽出攻撃}を含む；（4）モデル\rightarrowモデル（M\rightarrow M）：\emph{モデル抽出攻撃}を含む。統一された本枠組みにより、これらのセキュリティ脅威の背後にある連関が明らかになり、特に基盤モデルの領域において、スケーラブルで移植可能な、そしてクロスモーダルなセキュリティ戦略を開発するための基盤が確立されます。