統語的予測可能性に基づく言語学的に考慮したLLMウォーターマーキング

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、テキスト品質とウォーターマークの検出可能性のトレードオフを改善するための、言語学的に考慮したLLMウォーターマーキング手法STELAが提案されます。
STELAは、POS（品詞）n-gramでモデル化した言語の不確定性を使ってウォーターマーク強度を調整し、文法的に制約された文脈では信号を弱め、言語的自由度が高い文脈では信号を強めます。
先行手法がlogitsなどモデル固有の情報に依存するのに対し、STELAの検出器はモデルlogitsなしで動作できるため、公的に検証可能な検出を可能にします。
英語、（分離した）中国語、膠着語的な韓国語といった類型的に多様な言語での実験により、STELAは検出頑健性で先行手法より優れていることが示されています。
著者らは、採用や評価を支援するためにGitHubの実装も公開しています。