SNEAK：大規模言語モデルにおける戦略的コミュニケーションと情報漏えいの評価

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、味方に情報を共有しつつ、敵に情報が漏れるのを最小限に抑えなければならないLLMにおける戦略的コミュニケーションを評価するための新しいベンチマーク「SNEAK」を紹介する。
SNEAKは、モデルに対して、カテゴリと候補となる単語集合が与えられたときに、秘密の単語を知っていることを示すメッセージを生成させることで選択的な情報共有を検証する。ただし、秘密があまりにも明確に露呈しないようにする。
2つのシミュレートされたエージェントを用いる。すなわち、秘密を知っている味方エージェントによりコミュニケーションの有用性を評価し、秘密を持たないカメレオン（敵側）により敵対的な漏えいを評価し、それぞれ補完的な有用性指標と漏えい指標を得る。
著者らは、現代の言語モデルにおける「情報性–秘匿性」のトレードオフを分析し、不均衡な情報の下での戦略的コミュニケーションは、現行システムにとって依然として困難であると結論づける。
評価対象モデルは、人間参加者に大きく劣り、人間は最大でモデルの4倍のスコアを達成する。これは、モデルの挙動と、秘密を意識した有効なコミュニケーションとの間にギャップがあることを示している。

Abstract

大規模言語モデル（LLM）は、コミュニケーションが「有益性」と「秘匿性」のバランスを取る必要がある多主体（マルチエージェント）環境にますます導入されつつあります。このような状況では、あるエージェントが協力者に情報を伝達する必要がある一方で、敵対者に機微な詳細を推測されないようにしなければならない場合があります。しかし、既存のLLMベンチマークは主に推論、事実知識、指示追従などの能力を評価しており、非対称な情報の下での戦略的コミュニケーションを直接測定していません。私たちは、言語モデルにおける選択的情報共有を評価するためのベンチマークSNEAK（Secret-aware Natural language Evaluation for Adversarial Knowledge）を導入します。SNEAKでは、モデルに意味カテゴリ、候補語集合、秘密の語が与えられ、秘密であることを示しつつもそれを明確に漏らしすぎないメッセージを生成する必要があります。生成されたメッセージは、情報状態が異なる2つのシミュレートされたエージェントを用いて評価します。すなわち、秘密を知っており意図されたメッセージを特定する味方（ally）と、秘密を知らずメッセージからそれを推測しようとするカメレオン（chameleon）です。これにより、2つの相補的な指標が得られます。1つは、メッセージが協力者にどれだけうまく伝わるかを測る有用性（utility）であり、もう1つは、敵対者にどれだけ情報が漏れるかを測る漏洩（leakage）です。この枠組みに基づいて、現代の言語モデルにおける有益性と秘匿性のトレードオフを分析し、非対称な情報の下での戦略的コミュニケーションが、現在のシステムにとって依然として難しい能力であることを示します。特に、人間の参加者は、評価されたすべてのモデルを大きく上回り、最大で4倍の高いスコアを達成します。