QuantileMark:LLM向けのメッセージ対称なマルチビット・ウォーターマーク

arXiv cs.CL / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • QuantileMarkは、テキスト品質や検証結果にメッセージ依存の変化を生じさせないことを目指す、LLM向けのホワイトボックス・メッセージ対称なマルチビット・ウォーターマーキング手法として提示される。
  • このアプローチでは、連続する累積確率区間内で固定確率(等質量)の量子ビンからサンプリングすることでビットを埋め込み、異なる復号エントロピー間でも一定の1/M確率予算を維持する。
  • 検出では、検証者が教師強制によりビン分割を再現し、潜在ビンに関する事後分布を推定して、証拠を集約することでウォーターマークの有無を判定する。
  • 本論文では、メッセージの平均化によって基となる分布が回復されることを示すメッセージ非偏性(message-unbiasedness)を証明し、等質量ビン設計によりメッセージ間で検出に用いる証拠強度がより一様になると論じている。
  • C4継続やLFQAのようなタスクに対する実験では、生成品質への影響がほぼ無いまま、マルチビットの復元が改善され、検出の頑健性がより強くなることが報告されており、著者らはGitHubで付随するコードを公開している。

要旨: 大規模言語モデルがコンテンツ生成の標準的なバックエンドになっていくにつれ、実用的なプロベナンス(出所情報)には、ますます多ビット透かしが必要とされるようになっています。プロバイダ内部での導入における重要な要件は、メッセージ対称性です。すなわち、メッセージそれ自体がテキストの品質または検証結果のいずれにも体系的に影響してはならない、ということです。語彙パーティション型の透かしは、低エントロピーのデコードではメッセージ対称性を壊してしまうことがあります。具体的には、一部のメッセージは確率質量の大部分が割り当てられる一方で、他のメッセージはテールトークンを使うことを強いられます。これにより、埋め込み品質とメッセージ復号精度がメッセージ依存になります。そこで我々は、連続累積確率区間 [0, 1) の中にメッセージを埋め込む、ホワイトボックスの多ビット透かしである QuantileMark を提案します。各ステップにおいて、QuantileMark はこの区間を M 等質量(equal-mass)ビンに分割し、目標記号に割り当てられたビンからのみ厳密にサンプリングします。これにより、文脈のエントロピーにかかわらず、固定された 1/M の確率予算が確保されます。検出では、検証者が teacher forcing の下で同じ分割を再構成し、潜在ビンに対する事後分布を計算し、検証のためのエビデンスを集約します。我々は、メッセージを平均したとき基底分布が回復されることを保証する性質である、メッセージ不偏性(message-unbiasedness)を証明します。これにより生成側の対称性のための理論的基盤が与えられ、さらに等質量設計は検出側においてメッセージ間のエビデンス強度の一様性も促進します。C4 継続(continuation)および LFQA に関する実験結果では、強力なベースラインと比べて、多ビットの復元および検出ロバスト性が向上し、生成品質への影響はごくわずかでした。我々のコードは GitHub(https://github.com/zzzjunlin/QuantileMark)で公開しています。

QuantileMark:LLM向けのメッセージ対称なマルチビット・ウォーターマーク | AI Navigate