UniMark：自己回帰型画像生成器向けの統一型適応マルチビット透かし

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AI生成画像の所有権保護と追跡を可能にするための、自己回帰型画像生成器向けのトレーニング不要の統一型ウォーターマーキング枠組み「UniMark」を提案する。
UniMarkは、従来の制約を克服し、ゼロビットだけでなくマルチビット（のメッセージ）を扱うことに対応する。また、ASG（Adaptive Semantic Grouping：適応セマンティック・グルーピング）を用いて秘密鍵に基づくコードブックの分割を行い、セキュリティを向上させる。さらに、誤り訂正符号を組み合わせたブロック単位のマルチビット符号化（Block-wise Multi-bit Encoding: BME）により、確実な抽出を実現する。
異なる自己回帰パラダイム（次トークン予測や次スケール予測モデルなど）にわたって透かし埋め込みを一般化するための、統一トークン置換インターフェース（UTRI：Unified Token-Replacement Interface）を含む。
著者らは、検出誤り率および埋め込み容量に関する理論解析を提示し、画像品質（FID）、透かし検出精度、マルチビットメッセージ抽出における最先端の結果を報告する。
実験により、クロッピング、JPEG圧縮、ガウスノイズ、ぼかし、カラージッタ、ランダム消去といった一般的な現実世界の劣化や攻撃に対して頑健であることが示される。

Abstract

自己回帰（AR）画像生成に対する不可視ウォーターマーキングは、画像の所有権を保護し、AI生成コンテンツを追跡する手段として、近年注目を集めています。しかし、既存手法には3つの主要な制限があります： (1) バイナリ検証のためにゼロビット・ウォーターマークしか埋め込めず、多ビットのメッセージを伝える能力がない； (2) コードブックの静的な分割戦略に依存しており、分割が露出するとセキュリティ攻撃に対して脆弱である； (3) 特定のARアーキテクチャ向けに設計されており、多様なARパラダイムにわたって汎化できない。私たちは、これら3つすべての制限に対処する、学習不要の統一ウォーターマーキング枠組みである extbf{\method{}}を提案します。\method{}は3つの中核コンポーネントを導入します： extbf{Adaptive Semantic Grouping (ASG)}は、意味的類似性と秘密鍵に基づいてコードブックのエントリを動的に分割し、画像品質の維持とセキュリティの確保の両方を保証します； extbf{Block-wise Multi-bit Encoding (BME)}は、トークン列をブロックに分割し、誤り訂正符号を用いてブロック間で異なるビットを符号化することで、信頼できるメッセージ伝送を実現します；そして、 extbf{a Unified Token-Replacement Interface (UTRI)}は、ウォーターマーク埋め込みプロセスを抽象化し、次トークン予測（例：LlamaGen）と次スケール予測（例：VAR）の両パラダイムをサポートします。検出誤り率と埋め込み容量に関する理論解析を行います。3つのARモデルに対する大規模な実験により、 extbf{\method{}}が、画像品質（FID）、ウォーターマーク検出精度、多ビット・メッセージ抽出において最先端の性能を達成しつつ、トリミング、JPEG圧縮、ガウス雑音、ぼかし、色のジッタ、ランダム消去攻撃に対する頑健性も維持することを示します。