統語的予測可能性に基づく言語学的に考慮したLLMウォーターマーキング

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、テキスト品質とウォーターマークの検出可能性のトレードオフを改善するための、言語学的に考慮したLLMウォーターマーキング手法STELAが提案されます。
  • STELAは、POS(品詞)n-gramでモデル化した言語の不確定性を使ってウォーターマーク強度を調整し、文法的に制約された文脈では信号を弱め、言語的自由度が高い文脈では信号を強めます。
  • 先行手法がlogitsなどモデル固有の情報に依存するのに対し、STELAの検出器はモデルlogitsなしで動作できるため、公的に検証可能な検出を可能にします。
  • 英語、(分離した)中国語、膠着語的な韓国語といった類型的に多様な言語での実験により、STELAは検出頑健性で先行手法より優れていることが示されています。
  • 著者らは、採用や評価を支援するためにGitHubの実装も公開しています。