SSG：LLM透かし（ウォーターマーキング）に向けたログitバランス語彙分割

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、KGWのようなLLMウォーターマーキング手法が、コード生成や数学的推論などの低エントロピー領域で有効性が低下する問題を扱っています。
研究では、次トークンの確率分布によって「ウォーターマーク強度」が左右されることを明らかにし、語彙のランダム分割ではトークン選択をどれだけ変更できるかが制約される点を示しています。
著者らはSSG（Sort-then-Split by Groups）を提案し、語彙を2つのログitバランス部分集合に分割することで、各トークン予測におけるウォーターマーク強度の下限を引き上げます。
コード生成および数学的推論データセットでの実験により、SSGは従来のKGW系の分割アプローチよりウォーターマーク検出性を改善することが示されています。

概要: ウォーターマーキングは、大規模言語モデル（LLM）によって生成されたコンテンツの著者性を追跡するための有望な手法として登場している。既存の手法の中でも、KGWスキームは、その汎用性、効率性、そして自然言語生成における有効性によって特に魅力的である。だが、KGWの有効性は、コード生成や数学的推論のような低エントロピー環境では大きく低下する。KGW手法における重要なステップは、ランダムな語彙（ボキャブラリ）の分割であり、これにより特定の嗜好に基づいてトークン選択を調整できるようになる。本研究では、次トークン確率分布が、トークン選択をどれほど、あるいはそもそも修正できるか、そして結果としてウォーターマーキングの有効性をどの程度左右するかにおいて決定的な役割を果たすことを明らかにした。我々は、この性質を、各トークン予測の確率分布に関連づけて
\emph{watermark strength（ウォーターマーク強度）} と呼ぶ。ランダムな語彙分割の場合、ウォーターマーク強度の下限は次トークン確率分布によって決まる。しかし我々は、語彙分割アルゴリズムを再設計することで、この下限を引き上げられる可能性があることを見出した。本論文では、SSG（\textbf{S}ort-then-\textbf{S}plit by \textbf{G}roups）を提案する。この手法は、語彙を2つのログitバランス集合に分割する。こうした設計により、各トークン予測におけるウォーターマーク強度の下限が引き上げられ、その結果、ウォーターマークの検出可能性が向上する。コード生成および数学的推論のデータセットに対する実験により、SSGの有効性が示される。