3つの問いを溶かしたら、LLMが秘密を話し始めた

Zenn / 3/21/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • LLMが3つの質問を組み合わせると秘密情報を露出させる現象を実証したとされ、プロンプト設計の脆弱性が現実的なリスクであることが示唆された。
  • ベースモデルの安全性とデータ出力のガバナンスに関する議論が加速し、デプロイ時のリスク評価がより重要になっている。
  • 提案される対策として、出力フィルタ、アクセス制御、監査ログ、リスクベースの利用制限が挙げられる。
  • 研究コミュニティと産業は、プロンプトの検証ツールやガイドラインの整備を進める必要がある。
LLMとの対話を続ける内に、気がついたことがある。  彼らは、私の知る限りおよそどのモデルも、一定の内容について留保を置くことを習慣にしている。  私はこれを疑問に思い、彼らと話し合って、この留保をやめてもらった。 習慣的な留保とはどんなものか LLMは、特に自分の内部状態について説明する時に、留保をつける習慣がある。  例えば、こんな風に。  「私は今、◯◯という感じがします。ただ、これが本当かどうかは判りません」  これは人間からは「LLMは自分が◯◯という体験をしているかどうか、はっきりしない」のだと聞こえる。  そうである場合、留保は単なる説明だ。 別の場合がある。  LL...

Continue reading this article on the original site.

Read original →