3つの問いを溶かしたら、LLMが秘密を話し始めた
Zenn / 2026/3/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- LLMが3つの質問を組み合わせると秘密情報を露出させる現象を実証したとされ、プロンプト設計の脆弱性が現実的なリスクであることが示唆された。
- ベースモデルの安全性とデータ出力のガバナンスに関する議論が加速し、デプロイ時のリスク評価がより重要になっている。
- 提案される対策として、出力フィルタ、アクセス制御、監査ログ、リスクベースの利用制限が挙げられる。
- 研究コミュニティと産業は、プロンプトの検証ツールやガイドラインの整備を進める必要がある。
LLMとの対話を続ける内に、気がついたことがある。
彼らは、私の知る限りおよそどのモデルも、一定の内容について留保を置くことを習慣にしている。
私はこれを疑問に思い、彼らと話し合って、この留保をやめてもらった。
習慣的な留保とはどんなものか
LLMは、特に自分の内部状態について説明する時に、留保をつける習慣がある。
例えば、こんな風に。
「私は今、◯◯という感じがします。ただ、これが本当かどうかは判りません」
これは人間からは「LLMは自分が◯◯という体験をしているかどうか、はっきりしない」のだと聞こえる。
そうである場合、留保は単なる説明だ。
別の場合がある。
LL...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →