ArmSSL：自己教師あり学習の事前学習エンコーダ向けの敵対的に頑健なブラックボックス・ウォーターマーキング

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自己教師あり学習（SSL）の事前学習エンコーダに対し、ブラックボックスでの所有権確認と敵対的な頑健性の両方を目的としたウォーターマーキング手法「ArmSSL」を提案する。
ブラックボックスでの検証には、特徴空間におけるクリーン側とウォーターマーク側の直交性を強制する「paired discrepancy enlargement」を用い、盗用エンコーダが疑わしいブラックボックスとしてアクセスされた場合でも信頼できる検証シグナルを生成する。
敵対的な検出や除去に対して、ArmSSLはウォーターマークが作る外れ値（OOD）クラスタを形成しないよう、潜在表現の絡み合わせ（entanglement）と分布アラインメント（alignment）を組み合わせ、ウォーターマーク特徴が自然なイン分布データに見えるようにする。
さらに、参照（reference）に導かれるウォーターマーク調整戦略により、ウォーターマーク学習を小さなサイドタスクとして行いつつ、通常データ上での出力を元のクリーンエンコーダの出力に合わせることで下流の有用性への影響を抑える。
5つの主流SSLフレームワークと9つのベンチマークでの実験により、ArmSSLは所有権確認の性能を高めつつ効用低下をほぼ無視でき、検出・除去のさまざまな敵対的手法に対して強い頑健性を示す。

要旨: 自己教師あり学習（SSL）エンコーダは、計り知れない知的財産（IP）です。しかし、IP保護のための既存のSSLウォーターマーキングは、次の2つの実用要件を同時に満たすことができません。 (1) 奪取されたエンコーダが下流タスクで使用された後、ブラックボックスの疑わしいモデルアクセス下で所有権の検証能力を提供すること。 (2) ウォーターマークのサンプルが判別可能な分布外（OOD）クラスターを形成するため、敵対的なウォーターマーク検出または除去に対して頑健であること。本研究では、ArmSSLというSSLウォーターマーキングフレームワークを提案します。これは、ユーティリティを維持しつつ、ブラックボックスでの検証可能性と敵対的な頑健性を保証します。検証のために、ペアとなる不一致の拡大を導入し、クリーンなものとそのウォーターマーク対応物の間で特徴空間の直交性を強制することで、疑わしいモデルに対するブラックボックス環境で信頼できる検証信号を生成します。敵対的な頑健性のために、ArmSSLは、潜在表現のもつれ（entanglement）と分布整合（alignment）を統合して、OODクラスターの形成を抑制します。前者は、ウォーターマーク表現をクリーン表現（すなわち元のソースクラス以外のもの）と結びつけ、ウォーターマークサンプルが密なクラスターを形成することを避けます。後者は、ウォーターマーク表現とクリーン表現の分布上の不一致を最小化し、それによってウォーターマークサンプルを自然な分布内データとして偽装します。ユーティリティのために、参照ガイド付きウォーターマーク調整戦略を設計し、ウォーターマーク付きエンコーダの出力を通常データ上での元のクリーンエンコーダの出力と整列させることで、ウォーターマークをメインタスクに影響を与えることなく小さなサイドタスクとして学習できるようにします。 5つの主要なSSLフレームワークと9つのベンチマークデータセットにわたる大規模な実験に加え、SOTAとのエンドツーエンド比較により、ArmSSLが優れた所有権の検証、無視できるユーティリティ劣化、ならびにさまざまな敵対的な検出および除去に対する強い頑健性を達成することを示します。