空間トランスフォーマデコーディング付きJND誘導型ニューラルウォーターマーキングによるスクリーンキャプチャ耐性

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現実的なカメラ／スクリーンの歪みに対して、ウォーターマークの埋め込みと抽出を同時に最適化する、スクリーンキャプチャに頑健なエンドツーエンドの深層学習フレームワークを提案する。
モアレの物理的動機に基づく生成器を含むノイズシミュレーション層と、敵対的（アドバーサリアル）学習を導入し、モアレ、カラーマットのシフト、パースペクティブワーピング、センサノイズなどの結合したアーティファクトに対する頑健性を高める。
JND（Just Noticeable Distortion：人間が気づきやすい歪み）知覚損失により、ウォーターマーク残差をJND係数マップに合わせることで埋め込み強度を適応的に制御し、視覚品質の保持を目指す。
2つの自動ローカライズ要素—意味セグメンテーションによるフォアグラウンド抽出と、アンチクロッピング復元のための対称なノイズテンプレート機構—により、デプロイメントに近い条件下での大部分自動化されたデコーディングを可能にする。
実験では、目標とするスクリーン撮影チャネルにおいて127ビットのペイロードを埋め込みながら、強い再構成／品質指標が報告されている（平均PSNR 約30.94 dB、SSIM 約0.94）。

Abstract

スクリーン撮影ロバスト・ウォーターマーキングは、埋め込み対象となるホスト画像に対して、知覚的に目立たない形で抽出可能な情報を埋め込み、ウォーターマークがスクリーン表示およびカメラでの再撮影から成る複雑な歪み処理パイプラインを生き残ることを目的とする。しかし、高い抽出精度を維持しつつ満足できる視覚品質を確保することは、依然として未解決の課題である。主な理由は、スクリーン撮影チャネルが、モアレ（Moiré）パターン、色域（カラ―・ガムット）のシフト、遠近の歪み、センサノイズを含む、深刻で絡み合った劣化を引き起こすためである。本論文では、スクリーン撮影のロバスト性を高めるために、ウォーターマークの埋め込みと抽出を共同で最適化する、エンドツーエンドの深層学習フレームワークを提案する。提案フレームワークは、次の3つの主要な革新を取り入れる。（i）現実的なスクリーン撮影歪みを忠実にモデル化する、包括的なノイズ・シミュレーション層を導入する。特に、物理に動機づけられたモアレ・パターン生成器を含めることで、敵対的学習を通じて、キャプチャ・チャネルのノイズ全スペクトルに対してネットワークがロバストな表現を学習できるようにする。（ii）Just Noticeable Distortion（JND）知覚損失関数により、JND係数マップとウォーターマーク残差の知覚的な相違を教師付きで与えることで、ウォーターマーク埋め込み強度を適応的に調整する。これにより、知覚的に鈍感な領域にウォーターマークのエネルギーを集中させ、視覚品質を最大化する。（iii）相補的な2つの自動ローカライズ・モジュール――、キャプチャ画像の整形（rectification）を行うための意味セグメンテーションに基づくフォアグラウンド抽出器と、クロップ解除（anti-cropping）のための領域復元を可能にする対称ノイズ・テンプレート機構――により、現実の導入条件下での完全自動なウォーターマーク復号を可能にする。広範な実験により、本手法はウォーターマーク画像において平均PSNRが30.94~dB、SSIMが0.94を達成し、127-bitのペイロードを埋め込めることが示される。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

空間トランスフォーマデコーディング付きJND誘導型ニューラルウォーターマーキングによるスクリーンキャプチャ耐性

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer