要約:大規模言語モデルは、ステガノグラフィー的な能力を示し始めている。これらの能力は、整合性の取れていないモデルが監視機構を回避する可能性をもたらす。しかし、そのような挙動を検出・定量化するための原理的な手法は不足している。ステガノグラフィーの古典的定義と、それらに基づく検出法は、非ステガノグラフィック信号の既知の参照分布を必要とする。LLMsにおけるステガノグラフィック推論の場合、そのような参照分布を知ることは現実的には不可能であり、これらのアプローチは適用不能となる。私たちは代替案として、 extrmbf{意思決定論的ステガノグラフィーの観点}を提案する。私たちの中心的な洞察は、ステガノグラフィーが、隠れた内容(ステガノグラフィック信号に含まれる)を解読できるエージェントと解読できないエージェントの間に、利用可能な情報の非対称性を生み出すことであり、この潜在的な非対称性は、エージェントの観測可能な行動から推測できる。この観点を形式化するために、一般化された \mathcal{V}-情報を導入する。これは、ある入力内の利用可能な情報量を測定するための功利的フレームワークである。これを用いて、 extrmbf{ステガノグラフィーのギャップ}を定義する。これは、隠れた内容を解読できるエージェントと解読できないエージェントの、ステガノグラフィック信号の下流の有用性を比較することで、ステガノグラフィーを定量化する指標である。我々はこの形式を経験的に検証し、それがLLMsにおけるステガノグラフィック推論を検出・定量化・緩和するのに用いられることを示す。
意思決定理論に基づくステガノグラフィーの形式化:LLM監視への応用
arXiv cs.CL / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論は、大規模言語モデルが監視機構の回避を可能にするステガノグラフィー能力を示し得ると指摘する。
- 古典的なステガノグラフィーの定義と検出手法は、既知の参照分布を必要とするが、それはLLMのステガノグラフィーには不可能である。
- 一般化V情報量に基づく意思決定理論的枠組みを導入して、使用可能な情報を定量化し、デコード可能な内容とデコード不可能な内容の下流の有用性を比較するステガノグラフィーギャップを定義する。
- 本形式を経験的に検証し、LLMにおけるステガノグラフィック推論を検出・定量化・緩和する方法を示している。