広告

SNEAK:大規模言語モデルにおける戦略的コミュニケーションと情報漏えいの評価

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、味方に情報を共有しつつ、敵に情報が漏れるのを最小限に抑えなければならないLLMにおける戦略的コミュニケーションを評価するための新しいベンチマーク「SNEAK」を紹介する。
  • SNEAKは、モデルに対して、カテゴリと候補となる単語集合が与えられたときに、秘密の単語を知っていることを示すメッセージを生成させることで選択的な情報共有を検証する。ただし、秘密があまりにも明確に露呈しないようにする。
  • 2つのシミュレートされたエージェントを用いる。すなわち、秘密を知っている味方エージェントによりコミュニケーションの有用性を評価し、秘密を持たないカメレオン(敵側)により敵対的な漏えいを評価し、それぞれ補完的な有用性指標と漏えい指標を得る。
  • 著者らは、現代の言語モデルにおける「情報性–秘匿性」のトレードオフを分析し、不均衡な情報の下での戦略的コミュニケーションは、現行システムにとって依然として困難であると結論づける。
  • 評価対象モデルは、人間参加者に大きく劣り、人間は最大でモデルの4倍のスコアを達成する。これは、モデルの挙動と、秘密を意識した有効なコミュニケーションとの間にギャップがあることを示している。

Abstract

Large language models (LLMs) are increasingly deployed in multi-agent settings where communication must balance informativeness and secrecy. In such settings, an agent may need to signal information to collaborators while preventing an adversary from inferring sensitive details. However, existing LLM benchmarks primarily evaluate capabilities such as reasoning, factual knowledge, or instruction following, and do not directly measure strategic communication under asymmetric information. We introduce SNEAK (Secret-aware Natural language Evaluation for Adversarial Knowledge), a benchmark for evaluating selective information sharing in language models. In SNEAK, a model is given a semantic category, a candidate set of words, and a secret word, and must generate a message that indicates knowledge of the secret without revealing it too clearly. We evaluate generated messages using two simulated agents with different information states: an ally, who knows the secret and must identify the intended message, and a chameleon, who does not know the secret and attempts to infer it from the message. This yields two complementary metrics: utility, measuring how well the message communicates to collaborators, and leakage, measuring how much information it reveals to an adversary. Using this framework, we analyze the trade-off between informativeness and secrecy in modern language models and show that strategic communication under asymmetric information remains a challenging capability for current systems. Notably, human participants outperform all evaluated models by a large margin, achieving up to four times higher scores.

広告