要旨:本論文では、大規模言語モデル(LLM)のウォーターマーキングの問題を研究します。モデルの歪みと検出能力の間のトレードオフを考え、この関係を red-green リスト・ウォーターマーキングアルゴリズムに基づく制約付き最適化問題として定式化します。最適化問題の最適解が、良い解析的性質を備えていることを示し、それによってウォーターマーキング処理のためのアルゴリズム設計をよりよく理解できるようになり、着想も得られます。この最適化定式化に基づき、オンラインの双対勾配上昇型ウォーターマーキングアルゴリズムを開発し、モデルの歪みと検出能力の間における漸近的パレート最適性を証明します。この結果は、(これまでの結果とは対照的に)平均化された形でグリーンリスト確率が明示的に増加し、それゆえ検出能力が向上することを保証します。さらに、ウォーターマーキング問題におけるモデル歪み指標の選択について、体系的な議論を行います。KLダイバージェンスの選択を正当化し、「歪みなし(distortion-free)」およびパープレキシティの既存基準に関する問題点を提示します。最後に、広範なデータセットに対して提案アルゴリズムをベンチマークアルゴリズムと比較する形で、実験的に評価します。
LLMウォーターマーキングにおけるより良い統計的理解に向けて
arXiv stat.ML / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モデルの歪み(model distortion)と検出器の有効性(detector effectiveness)のトレードオフを、赤-緑リスト(red-green list)・ウォーターマーキングを中心とした制約付き最適化問題として定式化することで分析する。
- 最適解の解析的性質を導出し、それを動機として新しいオンライン型デュアル勾配上昇(online dual gradient ascent)ウォーターマーキングアルゴリズムを提案する。
- 著者らは、提案手法が漸近的パレート最適性(asymptotic Pareto optimality)を達成することを証明し、歪み(distortion)を制御しつつグリーンリスト確率(green-list probability)を高めることで検出能力を改善できる、明示的な保証を与える。
- ウォーターマーキングの歪み指標(watermark distortion metrics)を比較し正当化し、「歪みなし(distortion-free)」やパープレキシティ(perplexity)ベースの従来基準にある問題点を指摘したうえで、KLダイバージェンス(KL divergence)を支持する。
- 大規模データセットでの実験により、本アルゴリズムはベンチマークのウォーターマーキング手法に対して有効に機能し、本理論的定式化の実用的価値を裏付ける。



