Anchored Sliding Window:堅牢で不可知な言語ステゴグラフィに向けて

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語モデルに基づく言語ステゴグラフィの重要な弱点に取り組む。すなわち、先行手法がステガノグラフィ対象のテキストがそのまま変更されずに送信されることを前提としているため、わずかなテキスト改変に対して脆弱である点である。
  • 提案手法は、Anchored Sliding Window(ASW)という枠組みを導入する。ASWは、プロンプトと、モデルのスライディングウィンドウ内で「ブリッジ」と呼ばれる追加コンテキストをアンカーし、除外されたトークンをモデルが補償できるようにする。
  • 著者らは、ブリッジコンテキストの最適化をプロンプト蒸留の変種としてモデル化し、学習の頑健性を高めるために自己蒸留戦略を拡張して導入する。
  • 実験の結果、ASWは複数の設定において、ベースライン手法と比べて、テキスト品質、不可知性、そして堅牢性を一貫して改善することが示される。
  • 本研究は、提示されたGitHubリポジトリにてコードを公開しており、再現やさらなる検討を可能にしている。

概要: 言語モデルに基づく言語ステガノグラフィは、通常、ステガノグラフィ用のテキストが改変されずに送信されることを前提とするため、わずかな修正でも脆弱になります。先行研究では、コンテキストウィンドウを制限することでこの脆弱性を軽減していますが、それはテキストの品質を大きく損ないます。本論文では、不可視性と頑健性を改善するためのアンカー付きスライディングウィンドウ(ASW)フレームワークを提案します。最新トークンに加えて、プロンプトとブリッジとなるコンテキストをコンテキストウィンドウ内にアンカーすることで、モデルに除外されたトークンを補うことを促します。さらに、ブリッジコンテキストの最適化を、プロンプト蒸留の変種として定式化し、そこから自己蒸留の戦略を用いて拡張します。実験の結果、提案手法であるASWは、さまざまな設定において、テキスト品質、不可視性、頑健性のすべての面で、基準手法を大きく一貫して上回ることが示されました。コードは github.com/ryehr/ASW_steganography で公開されています。